KR101859636B1 - Personal information de-identification system with security function and method thereof - Google Patents
Personal information de-identification system with security function and method thereof Download PDFInfo
- Publication number
- KR101859636B1 KR101859636B1 KR1020170091440A KR20170091440A KR101859636B1 KR 101859636 B1 KR101859636 B1 KR 101859636B1 KR 1020170091440 A KR1020170091440 A KR 1020170091440A KR 20170091440 A KR20170091440 A KR 20170091440A KR 101859636 B1 KR101859636 B1 KR 101859636B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- unit
- field
- data
- attribute
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/02—Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 정보 제공 시스템의 개인정보 비식별화 시스템 및 방법에 관한 것으로, 더욱 상세하게는 동일 분야의 정보에 대해 새롭게 생성되는 속성이 지속적으로 업데이트되는 통일된 스키마를 적용하여 데이터(정보)를 수집 및 분류하고, 정보의 분석에 의해 새롭게 생성되는 단어 및 속성을 업데이트하여 비식별화 사전을 구성하며, 정보를 암호화하여 제공하는 보안기능을 가지는 개인정보 비식별화 시스템 및 방법에 관한 것이다.The present invention relates to a system and method for identifying personal information in an information providing system. More particularly, the present invention relates to a system and method for identifying personal information in an information providing system, which collects data (information) by applying a unified schema, And a security function of encrypting and providing information by constructing a non-identification dictionary by updating words and attributes newly generated by analyzing information, and to a personal information non-discrimination system and method.
20세기 후반의 현대사회가 정보화 사회로 진화하였으며, 나아가 21세기 현재 4차 산업혁명에 의한 지능 정보화 사회로 진화하고 있다.The modern society in the latter half of the 20th century has evolved into an information society, and has evolved into an intelligent information society by the fourth industrial revolution as of the 21st century.
정보화 사회로 진화함에 따라 개인의 중요정보들이 다양한 기관(의료기관, 국가기관, 교육기관 등)(이하 정보를 제공하는 기관이므로 "정보 제공 처"라 함)의 시스템(이하 "정보 제공 시스템"이라 함)에 저장되어 관리되고 있다.As the information society evolves, the system of personal information (hereinafter referred to as "information providing system") (hereinafter referred to as "information providing system") is a system of various institutions (medical institutions, national institutions and educational institutions) ).
각 정보 제공 처들은 데이터를 활용하여 더 나은 의료지원, 산업발전 지원 등을 위해 해당 기관의 업무와 관련된 심사평가원(의료-건강보험 심사평가원 등), 언론사 등과 같은 자료 요청 처의 요청에 의해 해당 자료 요청 처로 자료를 제공한다.Each information provider uses the data to request better data such as medical evaluation and health insurance assessment appraisal etc. related to the work of the relevant institution for the purpose of better medical support and industrial development support, Provide the requested data.
이때, 자료의 정보들은 각 자료 제공 처(의료기관, 교육기관, 국가기관 등)에게 정보의 가치를 가지되 특정 개인을 식별할 수 없도록 비식별화되어 제공되어야 한다.At this time, the information of the data should be provided to each data provider (medical institution, educational institution, national institution, etc.) in a way that it can not identify a specific individual who has the value of information.
통상적으로 비식별화는 자료의 정보들 중 일반적인 정보를 제외한 개인을 식별할 수 있는 식별자(Identification: ID)(예: 이름, 주민등록번호, 전화번호 등)를 삭제하고, 준식별자(Quasi-identification: QI)(예: 우편번호, 주소 등)를 k-익명성 처리하고, 민감정보(Sensitivity Attribute: SA)(예: 월급여, 질병명 등)를 ℓ-다중성 및 t-근접성 처리하여 이루어진다.Typically, the non-identification is to delete an identifier (ID) (eg name, social security number, telephone number, etc.) that can identify an individual excluding general information from the information of the data, and a quasi-identification (QI (Eg, zip code, address, etc.) k-anonymity and Sensitivity Attribute (SA) (eg, monthly salary, disease name, etc.) with ℓ-multiplicity and t-proximity.
상술한 바와 같이 제공되는 자료는 각 자료 제공 처에서 비식별화되고, 동일 분야(예: 의료분야 등)의 복수의 기관(예: 다수의 의료기관)들 각각이 자신들만의 스키마에 의해 정보를 수집하므로, 다수의 기관들로부터 수집된 자료들은 그 형식이 일관성이 없는 문제점이 있었다. 즉, 종래 개인정보 비식별화 시스템을 적용하는 경우 정보 요청 처는 자료의 수집 후 동일 분야의 복수 기관의 자료들을 통합하는 데 어려움이 있었다.The data provided as described above are unidentified at each data source and each of a plurality of institutions (eg, a plurality of medical institutions) in the same field (eg, medical field) collects information by their own schema Therefore, there is a problem in that the data collected from a large number of institutions is inconsistent in format. That is, when the conventional personal information non-discrimination system is applied, the information requesting party has difficulty in integrating data of plural institutions in the same field after collecting data.
또한, 종래 개인정보 비식별화 시스템이 적용된 정보 제공 시스템은 비식별화된 정보를 포함하는 자료를 그대로 제공하므로 권리가 없는 제3자가 자료를 유출하여 활용하거나 변경할 수 있는 문제점이 있었다.In addition, the information providing system to which the conventional personal information non-discrimination system is applied provides the data including the non-discriminated information as it is, and thus there is a problem that the unauthorized third party can leak or utilize or change the data.
따라서 본 발명의 목적은 동일 분야의 정보에 대해 새롭게 생성되는 속성이 지속적으로 업데이트되는 통일된 스키마를 적용하여 데이터(정보)를 수집 및 분류하고, 정보의 분석에 의해 새롭게 생성되는 단어 및 속성을 업데이트하여 비식별화 사전을 구성하며, 정보를 암호화하여 제공하는 보안기능을 가지는 개인정보 비식별화 시스템 및 방법을 제공함에 있다.Accordingly, an object of the present invention is to provide a method and apparatus for collecting and classifying data (information) by applying a unified schema in which attributes newly generated for the same field of information are continuously updated, and updating words and attributes newly generated by analyzing information A non-discrimination dictionary, and a security function for encrypting and providing information.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 보안기능을 가지는 개인정보 비식별화 시스템은: 적어도 하나 이상의 정보 제공 처인 정보제공시스템 및 정보 요청 처인 정보 요청부와 연결되어 데이터 통신을 수행하는 통신부; 분야별 스키마를 저장하고, 해당 분야의 수집정보에 포함되는 단어 및 각 단어의 속성을 정의하는 분야별 데이터 사전을 저장하는 저장부; 및 상기 통신부를 통해 특정 분야의 정보제공시스템 및 정보 요청부 중 어느 하나로부터 상기 분야의 질의를 포함하는 정보 요청이 발생되면 상기 분야의 정보제공시스템의 데이터베이스에서 상기 정보제공시스템 분야에 대응하고 상기 질의에 대응하는 미리 저장된 스키마를 적용하여 정보를 수집하고, 상기 분야에 대응하는 상기 데이터 사전에 근거한 비식별화 모델을 적용하여 상기 수집된 정보들을 비식별화하고, 상기 통신부를 통해 상기 비식별화된 상기 정보를 상기 정보 요청부로 제공하는 제어부를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a personal information non-discrimination system having a security function, including: a communication unit connected to an information providing system, which is at least one information providing place, and an information requesting unit, A storage unit for storing a field-specific data dictionary storing a schema for each field and defining attributes of the words and words included in the collection information of the field; And an information providing system in the specific field and an information requesting unit, if an information request including a query of the field is generated through the communication unit, the database of the information providing system in the field corresponds to the field of the information providing system, And applying the non-identification model based on the data dictionary corresponding to the field to non-identifying the collected information, and transmitting the non-identified information through the communication unit to the non- And a controller for providing the information to the information requesting unit.
상기 제어부는, 상기 통신부를 통해 특정 분야의 정보제공시스템 및 정보 요청부 중 어느 하나로부터 상기 분야에 대한 분야 정보를 포함하는 질의를 포함하는 정보 요청을 접수받고 상기 질의를 출력하는 서비스 접수부; 상기 서비스 접수부로부터 질의를 입력받고, 상기 질의에 포함된 상기 분야정보의 분야 및 질의어에 대응하는 스키마를 상기 저장부로부터 로드하여 적용한 후 적용된 스키마에 근거하여 상기 분야의 정보제공시스템으로부터 정보를 수집하여 출력하는 데이터 수집부; 및 상기 분야의 데이터 사전을 참조하여 상기 수집된 수집정보를 단어 단위로 분석하고 분석된 단어의 속성을 정의하여 수집된 정보를 속성별로 분류하는 정보 분석부를 포함하는 것을 특징으로 한다.Wherein the control unit receives a request for information including a field including field information for the field from the information providing system and the information request unit in a specific field via the communication unit and outputs the inquiry; The information processing system of the present invention receives a query from the service reception unit, loads a schema corresponding to the field of the field information included in the query and a query corresponding to the query term from the storage unit, applies the schema, A data collecting unit for outputting data; And an information analyzing unit for analyzing the collected information by word by referring to the data dictionary of the field, defining attributes of the analyzed words, and classifying the collected information according to the attributes.
상기 정보 분석부는, 수집된 상기 수집정보를 형태소에 기반하여 상기 수집된 정보에 포함된 단어를 검출하는 데이터 분석부; 상기 데이터 분석부에서 검출된 단어 각각에 대해 상기 데이터 사전을 참조하여 속성을 판별하여 정의하는 속성 판별부; 및 상기 판별된 속성별로 단어들을 정렬하는 데이터 분류부를 포함하는 것을 특징으로 한다.The information analysis unit may include a data analysis unit that detects a word included in the collected information based on the collected morphological information; An attribute discrimination unit for discriminating and defining an attribute of each word detected by the data analysis unit by referring to the data dictionary; And a data classifier for sorting the words according to the determined attributes.
상기 제어부는, 상기 속성 판별부를 통해 정의되지 않은 단어 및 단어에 대해 해당 단어의 속성을 정의한 후, 상기 분야의 데이터 사전에 추가하고, 추가된 단어의 속성을 설정하고, 비식별화를 위한 설정을 수행하는 비식별 초기 설정부; 최종적으로 업데이트된 상기 데이터 사전 및 상기 설정된 설정정보에 근거하여 분류된 상기 수집정보를 비식별화하여 출력하는 비식별화부; 및 상기 비식별화된 수집정보를 정보 요청부 및 정보 제공 시스템 중 정보를 요청한 하나 이상으로 제공하는 수집정보 제공부를 포함하는 것을 특징으로 한다.Wherein the control unit defines attributes of a word and a word which are not defined by the attribute determination unit, adds the attribute to the data dictionary of the field, sets an attribute of the added word, A non-identification initial setting unit performing the non-identification; A non-discrimination unit for discriminating and outputting the collected information based on the finally updated data dictionary and the set setting information; And a collection information providing unit for providing the non-identified collection information to at least one of the information requesting unit and the information providing system by requesting the information.
상기 제어부는, 상기 비식별화부에서 비식별화된 수집정보를 비밀 공유 기법에 의해 암호화하여 상기 수집정보 제공부로 제공하는 상기 비밀 공유 암호화부를 더 포함하는 것을 특징으로 한다.The control unit may further include a secret shared encryption unit for encrypting the non-identified collection information in the non-identifying unit by a secret sharing scheme and providing the encrypted secret information to the collection information providing unit.
상기 제어부는, 상기 비식별화된 수집정보에 대한 비식별화 단계 일반화 계층정보, 상기 단계 일반화 계층정보가 저장된 저장공간 정보, 이용 분석 정보 및 위험 분석 정보를 생성하여 출력하는 평가부를 더 포함하는 것을 특징으로 한다.The control unit may further include an evaluation unit for generating and outputting non-identification level generalization layer information for the non-identified collection information, storage space information for storing the level generalization layer information, utilization analysis information, and risk analysis information .
상기 평가부는, 상기 비식별화된 수집정보에 대한 공격 시나리오에 따른 공격 가능성을 분석한 상기 이용 분석 정보를 생성하여 출력하는 이용 분석부; 상기 비식별화된 수집정보의 재식별 위험도를 분석하여 위험 분석 정보를 생성하여 출력하는 위험 분석부; 상기 비식별화된 수집정보에 대한 비식별화의 각 단계에 대한 일반화 계층정보인 비식별화 단계 일반화 계층정보를 생성하여 출력하는 데이터 이용 메트릭스부: 및 상기 비식별화 단계 일반화 계층정보가 저장된 공간에 대한 저장공간 정보를 출력하는 해결 공간 제시부를 포함하는 것을 특징으로 한다.Wherein the evaluation unit comprises: a usage analysis unit for generating and outputting the utilization analysis information analyzing the attack possibility according to an attack scenario for the non-identified collection information; A risk analyzer for analyzing the risk of re-identification of the non-identified collected information to generate and output risk analysis information; A data utilization metric unit for generating and outputting non-identification step generalization layer information as generalized layer information for each step of non-identification of the non-identified collection information; And outputting the storage space information for the storage space.
상기 비식별 초기 설정부는, 상기 분야에 대응하는 데이터 사전을 로드하여 설정하는 비식별화 사전 생성부와, 상기 속성 판별부에서 속성이 판별되지 않은 단어 및 그 단어의 속성을 수신되는 수집정보로부터 파악하여 정의하고 정의된 단어 및 그 속성을 데이터 사전에 추가하는 비식별화 사전 구성부를 포함하는 비식별화 사전 관리부; 및 상기 수집정보와 수집정보의 판별된 속성들에 대한 속성정보를 저장하여 관리하는 속성정보 관리부와, 상기 속성별 적용할 파라미터 및 파라미터 값들을 설정하는 설정정보 관리부를 포함하는 비식별화 구성 관리부를 포함하는 것을 특징으로 한다.Wherein the non-identification initialization unit comprises: a non-identifying dictionary generation unit for loading and setting a data dictionary corresponding to the field; and a non-identification dictionary generation unit for determining from the collected information that the attribute of the non- A non-discrimination dictionary management unit which includes a non-discrimination dictionary constituent unit for defining words defined and defined, and adding the defined words and their attributes to a data dictionary; And an attribute information management unit for storing and managing attribute information for the identified attributes of the collected information and the collected information, and a setting information managing unit for setting parameters and parameter values to be applied for each attribute, .
상기 비식별화 모델은 고전적 비식별화 모델이고, 상기 비식별화부는, 수집된 상기 수집정보로부터 식별자를 삭제하고, 상기 설정정보에 근거하여 준식별자를 동질집합으로 분류하고 일반화하여 일정 수(k)의 다른 사람과 구별되지 않도록 비식별 처리하는 k-익명성 처리부; 상기 비식별 처리된 수집정보의 민감정보를 일정 수(l)로 다양화되도록 다양성 처리하는 ℓ-다양성 처리부; 및 상기 수집정보의 특정 데이터 셋에서 구별되지 않는 속성(레코드)들의 미감한 정보의 분포와 전체 수집정보의 민감한 정보의 분포의 차이를 일정 값(t) 이하가 되도록 t-근접성(유사성) 처리하는 t-근접성 처리부를 포함하는 것을 특징으로 한다.Wherein the non-identification model is a classical non-identification model, the non-identification unit deletes the identifier from the collected collection information, classifies the quasi identifier into a homogeneous set based on the setting information, A k-anonymity processing unit for performing non-identification processing so as not to be distinguished from other persons of the k-anonymity processing unit; A? -Diversity processor for diversifying the sensitivity information of the non-discriminated processed collection information so as to be diversified to a predetermined number (1); Proximity (similarity) processing such that the difference between the distribution of the augmented information of the attributes (records) not distinguished in the specific data set of the collection information and the distribution of the sensitive information of the entire collection information is equal to or less than a constant value t and a t-proximity processing unit.
상기 비식별화 모델은 , 차분 프라이버시 비식별화 모델이고, 상기 비식별화부는 상기 수집정보들 중 준식별자(QI)에 대해 계산된 노이즈를 통계 기록에 넣어 개인의 식별성을 삭제하여 출력하는 차분 프라이버시를 수행하는 고전적 비식별화부를 포함하는 것을 특징으로 한다.Wherein the non-discrimination model is a differential privacy non-discrimination model, and the non-discrimination unit removes the discrimination of the individual by putting the noise calculated for the quasi-identifier (QI) And a classical non-discrimination unit for performing the non-discrimination.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 정보 비식별화 방법은: 제어부가 통신부를 통해 특정 분야의 정보제공시스템 및 정보 요청부 중 어느 하나로부터 상기 분야의 질의를 포함하는 정보 요청을 수신하는 비식별화 서비스 접수 과정; 상기 제어부가 상기 분야의 정보제공시스템의 데이터베이스에서 상기 정보제공시스템 분야에 대응하고 상기 질의에 대응하는 미리 저장된 스키마를 적용하여 정보를 수집하는 정보 수집 과정; 상기 제어부가 상기 분야에 대응하는 데이터 사전에 근거한 비식별화 모델을 적용하여 상기 수집된 정보들을 비식별화하는 비식별화 과정; 및 상기 통신부를 통해 상기 비식별화된 상기 정보를 상기 정보 요청부로 제공하는 비식별화 정보 제공 과정을 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided an information non-discrimination method comprising: receiving, by a control unit, an information request including a query of the field from an information providing system and an information request unit of a specific field through a communication unit Process of accepting non-identification services; An information collecting step of collecting information from the database of the information providing system of the field corresponding to the information providing system field and applying a pre-stored schema corresponding to the query; A non-discrimination process in which the controller applies a non-discrimination model based on a data dictionary corresponding to the field to discern the collected information; And a non-identification information providing step of providing the non-identified information to the information requesting unit through the communication unit.
상기 정보 수집 과정은, 상기 제어부가 서비스 접수부로부터 질의를 입력받고, 상기 질의에 포함된 상기 분야 및 질의어에 대응하는 스키마를 저장부로부터 로드하여 적용한 후 적용된 스키마에 근거하여 상기 분야의 정보 제공 시스템으로부터 정보를 수집하여 출력하는 데이터 수집 단계; 및 상기 제어부가 상기 분야의 데이터 사전을 참조하여 상기 수집된 정보 및 상기 질의에 포함된 질의어에 대응하는 단어 및 단어의 속성을 정의하여 수집된 정보를 속성별로 분류하는 정보 분석 단계를 포함하는 것을 특징으로 한다.Wherein the information collection process is a process in which the control unit receives a query from the service reception unit, loads the schema corresponding to the field and the query term included in the query from the storage unit, and applies the schema to the information providing system A data collecting step of collecting and outputting information; And an information analysis step of the controller referring to the data dictionary of the field and defining the collected information and the attributes of words and words corresponding to the query term included in the query and classifying the collected information according to the attributes .
상기 정보 분석 단계는, 상기 제어부가 데이터 분석부를 통해 수집된 상기 수집정보를 형태소에 기반하여 상기 수집된 정보에 포함된 단어를 검출하는 데이터 분석 단계; 상기 제어부가 속성 판별부를 통해 상기 데이터 분석부에서 검출된 단어 각각에 대해 데이터 사전을 참조하여 속성을 판별하고 정의하는 속성 판별 단계; 및 상기 제어부가 데이터 분류부를 통해 상기 판별된 속성별로 단어들을 정렬하는 데이터 분류 단계를 포함하는 것을 특징으로 한다.The information analysis step may include a data analysis step of detecting words included in the collected information based on the morphemes of the collected information collected by the control unit through the data analysis unit; An attribute discrimination step of the control section discriminating and defining an attribute of each word detected by the data analysis section through an attribute discrimination section by referring to a data dictionary; And a data classification step in which the control unit arranges words according to the determined attributes through a data classification unit.
상기 제어부가 비밀 공유 암호화부를 통해 비식별화부에서 비식별화된 수집정보를 비밀 공유 기법에 의해 암호화하여 수집정보 제공부로 제공하는 비밀 공유 암호화 과정을 더 포함하는 것을 특징으로 한다.The control unit encrypts the non-identified collection information in the non-identifying unit through the secret sharing cryptography unit and provides the encrypted information to the collection information providing unit.
상기 제어부는 평가부를 통해 상기 비식별화된 수집정보에 대한 비식별화 단계 일반화 계층정보, 상기 비식별화 단계 일반화 계층정보가 저장된 저장공간 정보, 이용 분석 정보 및 위험 분석 정보를 생성하여 출력하는 평가 정보 생성 과정을 더 포함하는 것을 특징으로 한다.The control unit may be configured to generate non-discrimination level generalization layer information for the non-identified collection information, storage space information for storing the non-discrimination level generalization layer information, utilization analysis information, and risk analysis information through an evaluation unit And generating an information.
평가정보 생성 과정은, 상기 비식별화된 수집정보에 대한 공격 시나리오에 따른 공격 가능성을 분석한 상기 이용 분석 정보를 생성하여 출력하는 이용 분석 단계; 상기 비식별화된 수집정보의 재식별 위험도를 분석하여 위험 분석 정보를 생성하여 출력하는 위험 분석 단계; 상기 비식별화된 수집정보에 대한 비식별화의 각 단계에 대한 일반화 계층 정보인 비식별화 단계 일반화 계층정보를 생성하여 출력하는 데이터 이용 메트릭스 단계: 및 상기 비식별화된 단계에 대한 비식별화 단계 일반화 계층정보가 저장된 공간에 대한 저장공간 정보를 출력하는 해결 공간 제시 단계를 포함하는 것을 특징으로 한다.The evaluation information generating step may include: a usage analysis step of generating and outputting the usage analysis information analyzing an attack possibility according to an attack scenario for the non-identified collection information; A risk analysis step of analyzing the re-identification risk of the non-identified collected information to generate and output the risk analysis information; A data usage metric step of generating and outputting non-identification step generalization layer information, which is generalized layer information for each step of non-identification of the non-identified collection information, And a solution space presentation step of outputting storage space information for a space in which the step generalization layer information is stored.
상기 제어부가 비식별화 초기 설정부를 통해 속성 판별부를 통해 정의되지 않은 단어 및 단어에 대해 해당 단어의 속성을 정의한 후, 상기 분야의 데이터 사전에 추가하고, 추가된 단어의 속성을 설정하고, 비식별화를 위한 설정을 수행하는 비식별 초기 설정 과정을 더 포함하는 것을 특징으로 한다.Wherein the control unit defines attributes of a word and a word which are not defined by the attribute determination unit through the non-identification initialization unit, adds the attribute to the data dictionary of the field, sets the attribute of the added word, And a non-identification initialization step of performing a setting for a non-identification.
상기 비식별화 초기 설정 과정은, 상기 제어부가 비식별화 사전 생성부를 통해 상기 분야에 대응하는 데이터 사전을 로드하여 설정하는 비식별화 사전 생성 단계와 상기 제어부가 비식별화 사전 생성부를 통해 속성 판별부에서 속성이 판별되지 않은 단어 및 그 단어의 속성을 수신되는 수집정보로부터 파악하여 정의하고, 비식별화 사전 구성부를 통해 정의된 단어 및 그 속성을 데이터 사전에 추가하는 비식별화 사전 구성 단계를 포함하는 비식별화 사전 관리 단계; 및 상기 제어부가 속성정보 관리부를 통해 상기 수집정보와 수집정보의 판별된 속성들에 대한 속성정보를 저장하여 관리하는 속성정보 관리단계와, 설정정보 관리부를 통해 상기 속성들 각각에 적용할 파라미터 및 파라미터 값들을 설정하는 설정정보 관리 단계를 포함하는 비식별화 구성 관리 단계를 포함하는 것을 특징으로 한다.Wherein the non-identification initialization step comprises: a non-identification pre-generation step in which the control unit loads and sets a data dictionary corresponding to the field through the non-identification pre-production unit; Identifying non-identified words and attributes of the words from the received collection information and defining non-identifying pre-configuration steps to add the defined words and their attributes to the data dictionary through the non-identifying pre- A non-discrimination dictionary management step including; And an attribute information management step of the control unit storing and managing attribute information on the determined attributes of the collected information and the collected information through the attribute information management unit; And a setting information management step of setting the values of the non-identifying configuration management step.
상기 비식별화 모델은 고전적 비식별화 모델이고, 상기 비식별화 과정은, k-익명성 처리부를 통해 수집된 수집정보로부터 식별자를 삭제하고, 설정정보에 근거하여 준식별자 중 일부 문자를 비식별 표시 처리하며, 일정 수(k)의 다른 사람과 구별되지 않도록 익명성 처리하는 k-익명성 처리 단계; ℓ-다양성 처리부를 통해 상기 익명성 처리된 수집정보의 민감정보를 일정 수(l)로 다양화되도록 ℓ-다양성 처리하는 ℓ-다양성 처리 단계; 및 t-근접성 처리부를 통해 상기 수집정보의 특정 데이터 셋에서 구별되지 않는 속성(레코드)들의 미감한 정보의 분포와 전체 수집정보의 민감한 정보의 분포의 차이를 일정 값(t) 이하가 되도록 t-근접성(유사성) 처리하는 t-근접성 처리 단계를 포함하는 것을 특징으로 한다.Wherein the non-identification model is a classical non-identification model, the non-identification process deletes the identifier from the collected information collected through the k-anonymity processing unit, and based on the setting information, An anonymity processing step of anonymizing processing so as not to be distinguished from others of a predetermined number (k); a? -diversity processing step of? -diversifying the sensitivity information of the anonymized collected information to a certain number (l) through diversity processing unit; And a t-proximity processing unit for obtaining a difference between a distribution of the augmented information of the attributes (records) not distinguished in the specific data set of the collection information and a distribution of the sensitive information of the total collection information, Proximity processing step of processing proximity (similarity).
상기 비식별화 모델은 차분 프라이버시 모델이고, 상기 비식별화 과정은, 차분 프라이버시를 통해 수집정보들 중 준식별자(QI)에 대해 계산된 노이즈를 통계 기록에 넣어 개인의 식별성을 삭제하는 차분 프라이버시를 수행하여 비식별화를 수행하는 것을 특징으로 한다.Wherein the non-discrimination model is a differential privacy model, and the non-discrimination process comprises: generating differential privacy by deleting the discrimination of the individual by putting the noise calculated for the quasi-identifier (QI) And performs non-discrimination by performing the non-discrimination.
본 발명은 별도의 보안기능을 가지는 개인정보 비식별화 시스템에서 정보 제공 처들의 정보 제공 시스템들로부터 정보 요청 처로부터 질의된 질의에 대응하는 통일된 스키마를 적용하여 정보를 수집하고, 이에 대해 비식별화 수행 후 자료를 제공하므로 동일 분야의 다수의 기관들로부터 수집된 자료들을 용이하게 통합할 수 있는 효과를 갖는다.In the personal information non-discrimination system having a separate security function, the information is collected by applying a unified schema corresponding to the inquired query from the information requesting destination from the information providing systems of the information providing destinations, And the data collected from multiple institutions in the same field can be easily integrated.
또한, 본 발명은 새롭게 생성된 단어에 대해 속성을 정의하고 속성이 정의된 단어를 사전에 반영하여 사전을 업데이트하므로 보다 정확하게 정보를 비식별화시킬 수 있는 효과를 갖는다.In addition, the present invention has an effect that the information can be more accurately discriminated because the dictionary is updated by defining the attribute of the newly generated word and reflecting the word in which the attribute is defined in advance.
또한, 본 발명은 비식별화된 자료를 시크릿 쉐어링 암호화를 수행하여 제공하므로 제3자가 자료를 재식별 또는 유추할 수 없도록 하는 효과를 갖는다. 즉 본 발명은 제3자에 대해 보안성을 향상시킬 수 있는 효과를 갖는다.In addition, the present invention provides an unidentified data by performing secret sharing encryption, thereby preventing a third party from re-identifying or deducing data. That is, the present invention has the effect of improving the security for the third party.
도 1은 본 발명에 따른 보안기능을 가지는 개인정보 비식별화 시스템을 포함하는 통신 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명에 따른 보안기능을 가지는 개인정보 비식별화 시스템의 구성을 나타낸 도면이다.
도 3은 본 발명에 따른 보안기능을 가지는 개인정보 비식별화 시스템의 평가부, 비식별화부 및 비식별 초기 설정부의 구성을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 보안기능을 가지는 개인정보 비식별화 방법을 나타낸 절차도이다.
도 5는 본 발명의 일실시예에 따른 보안기능을 가지는 개인정보 비식별화 시스템의 제어부에 의해 수행되는 정보 비식별화 방법을 나타낸 흐름도이다.1 is a block diagram of a communication system including a personal information non-discrimination system having a security function according to the present invention.
FIG. 2 is a diagram illustrating a configuration of a personal information non-discrimination system having a security function according to the present invention.
FIG. 3 is a diagram illustrating the configuration of an evaluation unit, a non-recognition unit, and a non-identification initialization unit of a personal information non-identification system having a security function according to the present invention.
4 is a flowchart illustrating a personal information ratio identification method having a security function according to an exemplary embodiment of the present invention.
5 is a flowchart illustrating an information non-discrimination method performed by a controller of a personal information non-discrimination system having a security function according to an exemplary embodiment of the present invention.
이하 첨부된 도면을 참조하여 본 발명에 따른 보안기능을 가지는 개인정보 비식별화 시스템의 구성 및 동작을 설명하고, 상기 시스템에서의 보안기능을 가지는 개인정보 비식별화 방법을 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS [0027] Hereinafter, a configuration and operation of a personal information non-discrimination system having a security function according to the present invention will be described with reference to the accompanying drawings, and a personal information ratio identification method having security functions in the system will be described.
도 1은 본 발명에 따른 보안기능을 가지는 개인정보 비식별화 시스템을 포함하는 통신 시스템의 구성을 나타낸 도면이다.1 is a block diagram of a communication system including a personal information non-discrimination system having a security function according to the present invention.
개인정보 비식별화 시스템(300)은 자료 요청부(100) 및 정보 제공 시스템(200)과 유무선 데이터 통신망(150)을 통해 연결되어 상호 데이터 통신을 수행한다.The personal
상기 유무선 데이터통신망(150)은 와이파이(WiFi)망을 포함하는 인터넷망, 이동통신망, 와이브로망 등 중 적어도 하나 또는 둘 이상이 혼합되어 있는 통신망이다.The wired / wireless
자료 요청부(100)는 정보 제공 시스템(200)으로 특정 분야의 정보를 요청하는 자료 요청 처로서, 해당 분야의 심사평가원(예: 보건복지부 심사평가원 등), 언론사 등의 자료 요청 자가 사용하는 단말기가 될 수 있을 것이다.The
상기 자료 요청부(100)는 데스크톱 컴퓨터, 노트북 컴퓨터 등의 컴퓨터 단말기(110), 스마트폰, 스마트패드 등과 같은 모바일 단말기(120) 등이 될 수 있을 것이다.The
상기 자료 요청부(100)는 필요로 하는 자료에 대한 질의정보를 포함하는 자료요청정보를 상기 정보 제공 시스템(200)으로 제공하도록 구성될 수도 있고, 직접 개인정보 비식별화 시스템(300)로 전송하도록 구성될 수도 있을 것이다. 상기 질의정보는 필요로 하는 정보의 분야에 대한 분야정보(예: 의료, 플랜트 등등), 필요로 하는 수집 자료에 대한 수집 자료정보(예: '2017년 내원 환자 정보' 등)를 포함할 수 있을 것이다.The
정보 제공 시스템(200)은 분야별로 다수개가 존재할 수 있으며, 자료 요청부(100)로부터 직접 질의정보 수신 시 개인정보 비식별화 시스템(300)으로 수신된 질의정보를 포함하는 정보 비식별화 요청 정보를 전송하고, 개인정보 비식별화 시스템(300)의 접속 시 개인정보 비식별화 시스템(300)이 요청하는 해당 분야의 정보를 개인정보 비식별화 시스템(300)으로 제공한다.The
개인정보 비식별화 시스템(300)은 자료 요청부(100)로부터 직접 자료 요청정보를 수신하거나 정보 제공 시스템(200)으로부터 정보 비식별화 요청 정보를 수신받고, 해당 분야의 정보 제공 시스템으로부터 해당 분야의 상기 자료 요청정보 또는 정보 비식별화 요청 정보에 포함된 질의 정보에 대응하는 정보를 수집하고, 수집된 수집정보의 데이터들을 비식별화 모델을 적용하여 비식별화한 후, 비식별화된 수집정보를 자료 요청부(100)로 직접 제공하거나, 정보 제공 시스템(200)으로 제공한다. 상기 비식별화 모델은 고전적 비식별화 모델 및 차분 프라이버시 모델이 적용될 수 있을 것이다. 상기 고전적 비식별화 모델은 k-익명성, ℓ-다양성, t-근접성을 순차적으로 진행하는 비식별화 모델이다.The personal
개인정보 비식별화 시스템(300)의 구성 및 동작은 다음의 도 2 및 도 3을 참조하여 상세히 설명한다.The configuration and operation of the personal
도 2는 본 발명에 따른 보안기능을 가지는 개인정보 비식별화 시스템의 구성을 나타낸 도면이다.FIG. 2 is a diagram illustrating a configuration of a personal information non-discrimination system having a security function according to the present invention.
도 2를 참조하면, 개인정보 비식별화 시스템(300)은 통신부(400), 저장부(500) 및 제어부(600)를 포함한다.Referring to FIG. 2, the personal
통신부(400)는 유무선 데이터통신망(150)에 접속하여 유무선 데이터통신망(150)에 접속한 자료 요청부(100) 및 정보 제공 시스템(200)들과 데이터 통신을 수행한다.The
저장부(500)는 분야별 스키마 및 분야별 데이터 사전을 저장한다.The
상기 스키마는 데이터를 수집하기 위한 필드(속성)들을 정의한다. 예를 들어, 분야가 의료분야인 경우, 스키마는 환자명, 환자 주민등록번호, 우편번호, 나이, 급여, 성별, 질병 등의 속성들로 정의될 수 있을 것이다.The schema defines fields (attributes) for collecting data. For example, if the field is in the medical field, the schema could be defined as attributes such as patient name, patient resident registration number, zip code, age, salary, gender, disease,
그리고 분야별 데이터 사전은 분야별로 정보 제공 시스템(200)에서 사용되는 단어 및 각 단어의 속성을 정의하며, 각 속성의 비식별자 분류정보가 매칭된다. 상기 비식별자 분류정보는 식별자(Identification: ID), 준식별자(Quasi Identification: QI) 및 민감정보(Sensitivity Attribute: SA)로 분류될 수 있을 것이다. 예를 들면, 홍길동은 단어이고, 홍길동의 속성은 환자명이며, 환자명은 비식별자 분류 정보인 식별자(Identifier: ID)로 정의되어 있을 수 있을 것이다.The field-specific data dictionary defines words and attributes of words used in the
제어부(600)는 서비스 접수부(610), 데이터 수집부(620), 정보 분석부(700), 비식별화부(900), 수집정보 제공부(1200)를 포함하고, 실시예에 따라 비식별 초기 설정부(800), 평가부(1000), 비밀 공유 암호화부(1100)를 더 포함하여, 본 발명에 따른 개인정보 비식별화 시스템(300)의 전반적인 동작을 제어한다.The
구체적으로 설명하면, 서비스 접수부(610)는 정보 요청부(100)로부터 정보 수집 요청정보, 또는 정보 제공 시스템(200)으로부터 자료 비식별화 요청 정보를 수신하여 해당 분야에 대한 자료 비식별화 서비스를 접수받고, 해당 정보에 포함된 질의정보를 검출하여 데이터 수집부(620)로 출력한다.Specifically, the
데이터 수집부(620)는 상기 서비스 접수부(610)로부터 질의정보를 입력받고, 질의정보에 포함된 분야정보에 의해 해당 정보 제공 시스템(200)에 접속하고, 상기 정보 제공 시스템(200)의 데이터베이스에서 상기 질의정보의 질의어에 대응하는 정보를 수집하여 출력한다.The
데이터 수집부(620)는 탄성 분산 데이터 셋(Resilient Distribute Dataset: RDD)을 적용하여 파일을 수집한 후, 분산 처리하며, 맵 리듀스 과정을 통해 단어 빈번도를 산출하여 통계적 지표로 활용한다.The
정보 분석부(700)는 데이터 분석부(710), 속성 판별부(720) 및 데이터 분류부(730)를 포함하고, 상기 데이터 수집부(620)를 통해 수집되는 수집정보를 저장부(500)에 저장되어 있는 상기 분야의 데이터 사전을 참조하여 상기 수집된 수집정보를 단어 단위로 분석하고 분석된 단어의 속성을 정의하여 수집된 정보의 단어를 속성별로 분류한다.The
구체적으로 상기 데이터 분석부(710)는 수집된 상기 수집정보를 형태소에 기반하여 상기 수집된 정보에 포함된 단어를 검출한다.Specifically, the
상기 속성 판별부(720)는 상기 데이터 사전을 참조하여 상기 검출된 각 단어들에 대한 속성을 판별하여 출력한다.The
상기 속성 판별부(720)는 데이터 사전에 의해 속성이 판별되지 않는 신규 단어가 발생되면 신규 단어가 검출되었음을 알리는 속성 미정의 단어 검출 통지 정보를 비식별 초기 설정부(820)로 출력하고, 상기 속성 미정의 단어 검출 통지 정보의 송신에 대해 상기 데이터 사전이 업데이트되면 해당 단어의 속성을 판별하여 출력한다.The
데이터 분류부(730)는 상기 판별된 속성별로 데이터들을 분류하고, 속성별로 분류된 수집정보를 출력한다.The
비식별 초기 설정부(800)는 정보 비식별화와 관련된 정보들을 초기화한다.The
구체적으로 비식별 초기 설정부(800)는 사전 관리부(810) 및 구성 관리부(820)를 포함한다.Specifically, the
사전 관리부(810)는 상기 분야에 대응하는 데이터 사전을 로드하여 설정하고, 상기 속성 판별부(720)에서 속성이 판별되지 않은 단어 및 그 단어의 속성을 통계화된 정보를 통해 학습하여 검출하며, 상기 신규 단어 및 속성을 해당 분야의 데이터 사전에 추가하여 업데이트한다.The
구성 관리부(820)는 상기 수집정보와 수집정보의 판별된 속성들에 대한 속성정보를 저장하여 관리하고, 상기 속성별 적용할 파라미터 및 파라미터 값들을 설정한다. 상기 파라미터는 익명성 파라미터(k), 다양화 파라미터(l), 근접성(유사성) 파라미터(t), 차분 프라이버스 파라미터(e) 등이 될 수 있을 것이다.The
비식별화부(900)는 상기 비식별 초기 설정부(810)에 의해 설정된 데이터 사전 및 속성 및 설정 정보들에 근거한 비식별화 모델을 적용하여 수집된 수집정보의 비식별화를 수행한다. 상기 비식별화부(900)의 상세 구성은 도 3을 참조하여 상세히 설명한다.The
평가부(1000)는 상기 비식별화된 수집정보에 대한 평가정보를 생성하여 평가자에게 제공하고, 평가자로부터 상기 평가정보에 따른 적정성 평가정보를 입력받고, 입력된 적정성 평가정보에 따라 수집정보를 처리한다. 예를 들면, 평가부(1000)는 적정성 평가 정보가 합격이면 비식별화된 수집정보를 그대로 출력하고, 불합격이면 상기 비식별 초기 설정부(810)를 통해 비식별화 파라미터들을 재설정한 후 상기 비식별화부(800)를 통해 비식별화 과정을 재수행하도록 할 수 있을 것이다.The
비밀공유 암호화부(1100)는 상기 비식별화된 수집정보를 비밀 공유(Secret Sharing) 암호화 방식에 의해 암호화한 후 수집정보 제공부(1200)로 출력한다. 상기 비밀 공유 암호화 방식은 이 기술분야의 당업자에게 잘 알려진 기술이므로 그 상세한 설명을 생략한다.The secret
수집정보 제공부(1200)는 상기 비식별화부(900)로부터 출력되는 비식별화된 수집정보 또는 비밀 공유 암호화부(1100)로부터 출력되는 비식별화되고 암호화된 수집정보를 정보 요청부(100) 및 정보 제공 시스템(200) 중 어느 하나 이상으로 제공한다.The collection
도 3은 본 발명에 따른 보안기능을 가지는 개인정보 비식별화 시스템의 평가부, 비식별화부 및 비식별 초기 설정부의 구성을 나타낸 도면이다.FIG. 3 is a diagram illustrating the configuration of an evaluation unit, a non-recognition unit, and a non-identification initialization unit of a personal information non-identification system having a security function according to the present invention.
도 3을 참조하면, 비식별 초기 설정부(800)는 상술한 바와 같이 사전 관리부(810) 및 구성관리부(820)를 포함한다.Referring to FIG. 3, the
사전 관리부(810)는 상기 분야에 대응하는 데이터 사전을 로드하여 설정하는 비식별화 사전 생성부(811)와, 상기 속성 판별부(720)에서 속성이 판별되지 않은 단어 및 그 단어의 속성을 수신되는 수집정보로부터 파악하여 정의하고 정의된 단어 및 그 속성을 데이터 사전에 추가하는 비식별화 사전 구성부(812)를 포함한다.The
그리고 구성 관리부(820)는 상기 수집정보와 수집정보의 판별된 속성들에 대한 속성정보를 저장하여 관리하는 속성정보 관리부(821)와, 상기 속성별 적용할 파라미터 및 파라미터 값들을 설정하는 설정정보 관리부를 포함하는 비식별화 구성 관리부(822)를 포함한다.The
비식별화부(900)는 고전적 비식별화부(910) 및 현대적 비식별화(또는 "차분 프라이버시부"라 함)(920) 중 어느 하나 이상을 포함하여 입력되는 수집정보의 정보들을 비식별화하여 출력한다.The
구체적으로 설명하면, 고전적 비식별화부(910)는 k-익명성 처리부(911), ℓ-다양성 처리부(912), t-근접성 처리부(913)를 포함한다.More specifically, the
k-익명성 처리부(911)는 수집되는 수집정보의 비식별 분류정보가 식별자(ID)인 속성들을 삭제한다. 상기 식별자인 속성은 개인을 직접적으로 식별할 수 있는 정보로, 이름, 주민등록번호, 전화번호 등이 될 수 있을 것이다.The k-
그리고 k-익명성 처리부(911)는 비식별 분류정보가 준식별자(QI)인 정보들 중 비식별 분류정보가 민감정보(SA)인 데이터를 미감하지 않은 정보로 수정된 레코드를 추가한다.The k-
ℓ-다양성 처리부(912)는 상기 비식별 처리가 수행된 수집정보에서 질병 등과 같은 민감정보를 포함하는 임의의 레코드에 대해 서로 다른 민감정보를 가지는 레코드를 둘(ℓ개) 이상 생성하는 ℓ-다양성 처리를 수행한다.The ℓ-
t-근접성 처리부(913)는 비식별 처리의 삭제, k-익명성 및 t-다양성을 만족하더라도 민감정보의 분포 차이를 통해 개인 사생활 정보가 노출되는 것을 방지하기 위해 레코드들의 민감한 민감정보의 분포와 전체 데이터의 민감정보의 분포의 차이를 일정 값(t) 이하로 만드는 t-근접성 처리를 수행한다.The t-
차분 프라이버시부(920)는 수집정보들 중 준식별자(QI)에 대해 정확히 계산된 노이즈를 통계 기록에 넣어 개인의 식별성을 삭제하여 출력한다.The
차분 프라이버시부(920)는 e(입실론) 값을 지속적으로 변경해가며 최적의 연산 처리결과를 도출할 수 있도록 함으로써 정확한 데이터 분포를 유추할 수 있으며, 개인정보에 대한 프라이버시(안전성)를 보장하고, 실제 데이터 이용을 위한 유연성을 가지며, 효율성을 향상시킬 수 있다.The
평가부(1000)는 상기 비식별화된 수집정보에 대한 공격 시나리오에 따른 공격 가능성을 분석한 상기 이용 분석 정보를 생성하여 출력하는 이용 분석부(1010), 상기 비식별화된 수집정보의 재식별 위험도를 분석하여 위험 분석 정보를 생성하여 출력하는 위험 분석부(1020), 상기 비식별화된 수집정보에 대한 비식별화의 각 단계에 대한 일반화 계층 정보인 비식별화 단계 일반화 계층정보를 생성하여 출력하는 데이터 이용 메트릭스부(1030) 및 상기 비식별화된 단계 일반화 계층정보가 저장된 공간에 대한 저장공간 정보를 출력하는 해결 공간 제시부(1040)를 포함한다.The
도 4는 본 발명의 일실시예에 따른 보안기능을 가지는 개인정보 비식별화 방법을 나타낸 절차도이다.4 is a flowchart illustrating a personal information ratio identification method having a security function according to an exemplary embodiment of the present invention.
도 4를 참조하면, 자료 요청부(100)는 자신이 원하는 자료에 대응하는 질의정보를 포함하는 자료 요청정보를 제1정보 제공 시스템(200)으로 전송하여 자료를 요청한다(S111). 이때, 자료 요청부(100)는 동일 분야의 둘 이상의 정보 제공 시스템(200)으로 자료 요청정보를 전송하도록 구성하여 동시에 복수의 정보 제공 시스템(200)으로 자료를 요청할 수도 있을 것이다.Referring to FIG. 4, the
또한, 자료 요청부(100)는 자료 요청정보를 직접 개인정보 비식별화 시스템(300)으로 전송하도록 구성될 수도 있을 것이다. 이 경우 상기 자료 요청정보는 자료를 요청하는 자료 요청부(100)의 식별정보인 요청 처 식별정보, 자료 요청을 받은 정보 제공 시스템의 식별정보인 제공 처 식별정보 및 질의정보를 포함하여야 할 것이다.In addition, the
자료 요청정보를 수신한 정보 제공 시스템(200)은 상기 자료 요청정보에 포함된 자료 요청부(100)의 요청 처 식별정보 , 자료 요청을 받은 정보 제공 시스템의 식별정보인 제공 처 식별정보 및 질의정보를 포함하는 자료 비식별화 요청 정보를 개인정보 비식별화 시스템(300)으로 전송한다(S113).The
자료 요청부(100)로부터 자료 요청정보를 수신하거나 정보 제공 시스템(200)으로부터 자료 비식별화 요청정보를 수신한 개인정보 비식별화 시스템(300)은 요청정보에 포함된 질의정보를 검출하고, 상기 요청정보에 포함된 제공 처 식별정보에 의해 해당 정보 제공 시스템(200)에 접속하한 후, 접속한 정보 제공 시스템(200)의 적어도 하나 이상의 데이터베이스 서버로부터 질의정보에 포함된 질의어에 대응하는 스키마에 의해 정보를 수집한다(S117). 상기 스키마는 질의어에 상관없이 동일 분야의 정보 제공 시스템(200)에 대해 정의되어 있을 수도 있을 것이다.The personal
정보가 수집되면 개인정보 비식별화 시스템(300)은 수집된 수집정보를 본 발명에 따라 데이터 사전 및 미리 설정된 설정정보에 근거한 비식별화 모델을 적용하여 비식별화한(S119) 후, 자료 요청부(100) 및 정보 제공 시스템(200) 중 어느 하나 이상으로 비식별화된 정보, 즉 자료를 제공한다(S121, S123, S125).When the information is collected, the personal
도 5는 본 발명의 일실시예에 따른 개인정보 비식별화 시스템의 제어부에 의해 수행되는 정보 비식별화 방법을 나타낸 흐름도이다. 도 5를 참조하여 정보 비식별화 방법을 상세히 설명한다.5 is a flowchart illustrating an information non-discrimination method performed by a controller of the personal information non-discrimination system according to an embodiment of the present invention. The information non-discrimination method will be described in detail with reference to FIG.
제어부(600)는 비식별화 서비스 이벤트가 발생되는지를 검사한다(S211). 상기 비식별화 서비스 이벤트는 자료 요청부(100)로부터 자료 요청정보가 수신되거나 정보 제공 시스템(200)으로부터 자료 비식별화 요청정보가 수신되는 경우 발생될 수 있을 것이다.The
비식별화 서비스 이벤트가 발생되면 제어부(600)는 수신된 요청정보(자료 요청정보 또는 자료 비식별화 요청정보)로부터 질의정보를 검출한다(S213).When the non-identification service event occurs, the
질의정보가 검출되면 제어부(600)는 질의정보의 질의어에 대응하는 스키마를 결정 및 로드한(S215) 후, 대상 정보 제공 시스템(200)에 접속하고(S217), 상기 로드된 스키마에 의해 정보를 수집한다(S219).When the query information is detected, the
정보가 수집되기 시작하면 제어부(600)는 수집이 완료되는지를 검사하고(S220), 수집이 완료되면 수집정보를 분석한 후 비식별화를 개시하고, 비식별화가 완료되는지를 검사한다(S221, S222).When the information is collected, the
비식별화를 수행한 후 제어부(600)는 비식별화가 완료되고 스키마에 대응하는 비식별화 자료를 생성한다(S223).After performing the non-identification, the
비식별화 자료가 생성되면 제어부(600)는 생성된 자료에 대한 평가를 수행하고, 수행된 평가에 따른 평가정보를 생성한다(S224).When the non-identification data is generated, the
평가정보가 생성되면 제어부(600)는 미리 등록되어 있는 평가자에게 상기 평가정보를 제공하여 적정성 검사를 요청한다(S225). 상기 적정성 검사 요청은 상기 평가자에게 자료를 메일로 제공하여 평가를 요청할 수도 있고, 평가자가 시스템에 로그온 시 제공할 수도 있을 것이다.When the evaluation information is generated, the
적정성 평가 요청 후 제어부(600)는 평가자로부터 적정성 평가정보를 입력받아 상기 자료가 적정한지를 판단하고(S227), 정정하지 않으면 수집정보를 재분석하고, 설정정보(k, l, t 등)를 변경하여(S229) 비식별화를 재수행하여 자료를 재생한 후 적정성 평가를 다시 수행할 것이다.After the appropriateness evaluation request is received, the
생성된 자료가 적정하면 제어부(600)는 비식별화 자료를 정보 요청부(100)로 제공한다(S231).If the generated data is appropriate, the
한편, 본 발명은 전술한 전형적인 바람직한 실시예에만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 개량, 변경, 대체 또는 부가하여 실시할 수 있는 것임은 당해 기술분야에서 통상의 지식을 가진 자라면 용이하게 이해할 수 있을 것이다. 이러한 개량, 변경, 대체 또는 부가에 의한 실시가 이하의 첨부된 특허청구범위의 범주에 속하는 것이라면 그 기술사상 역시 본 발명에 속하는 것으로 보아야 한다. While the present invention has been described with reference to exemplary embodiments, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, but, on the contrary, is intended to cover various modifications and equivalent arrangements included within the spirit and scope of the appended claims. It will be easily understood. It is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, it is intended to cover various modifications within the scope of the appended claims.
100: 자료 요청부 150: 유무선 데이터통신망
200: 정보 제공 시스템
300: 개인정보 비식별화 시스템 400: 통신부
500: 저장부 600: 제어부
610: 서비스 접수부 620: 데이터 수집부
700: 정보 분석부 710: 데이터 분석부
720: 속성 판별부 730: 데이터 분류부
800: 비식별 초기 설정부 810: 사전 관리부
811: 비식별화 사전 구성부 812: 비식별화 사전 생성부
820: 구성 관리부 821: 속성정보 관리부
822: 설정정보 관리부 900: 비식별화부
910: 고전적 비식별화부 911: k-익명성 처리부
912: ℓ-다양성 처리부 913: t-근접성 처리부
920: 차분 프라이버시부
1000: 평가부 1010: 이용 분석부
1020: 위험 분석부 1030: 데이터 이용 메트릭스부
1040: 해결 공간 제시부 1100: 비밀 공유 암호화부
1200: 수집정보 제공부100: Data Request Unit 150: Wired and wireless data communication network
200: Information providing system
300: personal information non-discrimination system 400:
500: storage unit 600: control unit
610: Service reception unit 620: Data collection unit
700: Information analysis unit 710: Data analysis unit
720: Attribute determination unit 730: Data classification unit
800: non-identification initial setting unit 810:
811: Non-identification pre-formation unit 812: Non-identification pre-
820: Configuration management unit 821: Attribute information management unit
822: setting information management unit 900: non-identifying unit
910: Classic non-identifying unit 911: k-Anonymity processing unit
912:? - diversity processing unit 913: t-proximity processing unit
920: Differential Privacy Section
1000: Evaluation section 1010: Usage analysis section
1020: Risk analysis unit 1030: Data usage metrics unit
1040: Resolution space presentation unit 1100: Secret sharing encryption unit
1200: Collecting Information Offering
Claims (20)
분야별 스키마를 저장하고, 해당 분야의 수집정보에 포함되는 단어 및 각 단어의 속성을 정의하는 분야별 데이터 사전을 저장하는 저장부; 및
상기 통신부를 통해 특정 분야의 정보제공시스템 및 정보 요청부 중 어느 하나로부터 상기 분야의 질의를 포함하는 정보 요청이 발생되면 상기 분야의 정보제공시스템의 데이터베이스에서 상기 정보제공시스템 분야에 대응하고 상기 질의에 대응하는 미리 저장된 스키마를 적용하여 정보를 수집하고, 상기 분야에 대응하는 상기 데이터 사전에 근거한 비식별화 모델을 적용하여 상기 수집된 정보들을 비식별화하고, 상기 통신부를 통해 상기 비식별화된 상기 정보를 상기 정보 요청부로 제공하는 제어부를 포함하되,
상기 제어부는,
상기 통신부를 통해 특정 분야의 정보제공시스템 및 정보 요청부 중 어느 하나로부터 상기 분야에 대한 분야 정보를 포함하는 질의를 포함하는 정보 요청을 접수받고 상기 질의를 출력하는 서비스 접수부;
상기 서비스 접수부로부터 질의를 입력받고, 상기 질의에 포함된 상기 분야정보의 분야 및 질의어에 대응하는 스키마를 상기 저장부로부터 로드하여 적용한 후 적용된 스키마에 근거하여 상기 분야의 정보제공시스템으로부터 정보를 수집하여 출력하는 데이터 수집부; 및
상기 분야의 데이터 사전을 참조하여 상기 수집된 수집정보를 단어 단위로 분석하고 분석된 단어의 속성을 정의하여 수집된 정보를 속성별로 분류하는 정보 분석부를 포함하고,
상기 정보 분석부는,
수집된 상기 수집정보를 형태소에 기반하여 상기 수집된 정보에 포함된 단어를 검출하는 데이터 분석부;
상기 데이터 분석부에서 검출된 단어 각각에 대해 상기 데이터 사전을 참조하여 속성을 판별하여 정의하는 속성 판별부; 및
상기 판별된 속성별로 단어들을 정렬하는 데이터 분류부를 포함하며,
상기 제어부는,
상기 속성 판별부를 통해 정의되지 않은 단어 및 단어에 대해 해당 단어의 속성을 정의한 후, 상기 분야의 데이터 사전에 추가하고, 추가된 단어의 속성을 설정하고, 비식별화를 위한 설정을 수행하는 비식별 초기 설정부;
최종적으로 업데이트된 상기 데이터 사전 및 상기 설정된 설정정보에 근거하여 분류된 상기 수집정보를 비식별화하여 출력하는 비식별화부;
상기 비식별화된 수집정보를 정보 요청부 및 정보 제공 시스템 중 정보를 요청한 하나 이상으로 제공하는 수집정보 제공부; 및
상기 비식별화된 수집정보에 대한 비식별화 단계 일반화 계층정보, 상기 단계 일반화 계층정보가 저장된 저장공간 정보, 이용 분석 정보 및 위험 분석 정보를 생성하여 출력하는 평가부를 더 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 시스템.
A communication unit connected to the information providing system, which is the at least one information providing unit, and the information request unit, which is the information requesting unit, and performs data communication;
A storage unit for storing a field-specific data dictionary storing a schema for each field and defining attributes of the words and words included in the collection information of the field; And
When an information request including a query of the field is generated from any one of the information providing system and the information requesting unit in the specific field through the communication unit, the database of the information providing system in the field corresponds to the field of the information providing system, Collecting information by applying a corresponding pre-stored schema, applying a non-identification model based on the data dictionary corresponding to the field to non-identify the collected information, and transmitting the non- And a controller for providing information to the information requesting unit,
Wherein,
A service accepting unit for accepting an information request including a query including field information for the field from any one of an information providing system and an information requesting unit in a specific field via the communication unit and outputting the query;
The information processing system of the present invention receives a query from the service reception unit, loads a schema corresponding to the field of the field information included in the query and a query corresponding to the query term from the storage unit, applies the schema, A data collecting unit for outputting data; And
And an information analyzer for analyzing the collected information by word by referring to the data dictionary of the field and defining attributes of analyzed words and classifying the collected information according to the attributes,
The information analyzing unit,
A data analyzer for detecting a word included in the collected information based on the collected information;
An attribute discrimination unit for discriminating and defining an attribute of each word detected by the data analysis unit by referring to the data dictionary; And
And a data classifier for sorting the words according to the determined attributes,
Wherein,
Identifying the attribute of the word not defined by the attribute determination unit, adding the attribute to the data dictionary of the field, setting the attribute of the added word, and performing non-identification Initial setting section;
A non-discrimination unit for discriminating and outputting the collected information based on the finally updated data dictionary and the set setting information;
A collection information providing unit for providing the non-identified collection information to at least one of the information requesting unit and the information providing system; And
Further comprising an evaluation unit for generating and outputting non-identification step generalization layer information for the non-identified collection information, storage space information storing the step generalization layer information, usage analysis information, and risk analysis information, Personal information non - discrimination system with function.
상기 제어부는,
상기 비식별화부에서 비식별화된 수집정보를 비밀 공유 기법에 의해 암호화하여 상기 수집정보 제공부로 제공하는 상기 비밀 공유 암호화부를 더 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 시스템.
The method according to claim 1,
Wherein,
And the secret sharing encryption unit encrypts the non-identified collection information by the secret sharing scheme and provides the encrypted secret information to the collection information providing unit.
상기 평가부는,
상기 비식별화된 수집정보에 대한 공격 시나리오에 따른 공격 가능성을 분석한 상기 이용 분석 정보를 생성하여 출력하는 이용 분석부;
상기 비식별화된 수집정보의 재식별 위험도를 분석하여 위험 분석 정보를 생성하여 출력하는 위험 분석부;
상기 비식별화된 수집정보에 대한 비식별화의 각 단계에 대한 일반화 계층정보인 비식별화 단계 일반화 계층정보를 생성하여 출력하는 데이터 이용 메트릭스부: 및
상기 비식별화 단계 일반화 계층정보가 저장된 공간에 대한 저장공간 정보를 출력하는 해결 공간 제시부를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 시스템.
The method according to claim 1,
The evaluating unit,
A usage analysis unit for generating and outputting the usage analysis information analyzing an attack possibility according to an attack scenario for the non-identified collection information;
A risk analyzer for analyzing the risk of re-identification of the non-identified collected information to generate and output risk analysis information;
A data utilization metric unit for generating and outputting non-identification level generalization layer information as generalized layer information for each step of non-identification of the non-identified collection information; and
And a resolution space presentation unit for outputting storage space information for a space in which the non-identifying step generalization layer information is stored.
분야별 스키마를 저장하고, 해당 분야의 수집정보에 포함되는 단어 및 각 단어의 속성을 정의하는 분야별 데이터 사전을 저장하는 저장부; 및
상기 통신부를 통해 특정 분야의 정보제공시스템 및 정보 요청부 중 어느 하나로부터 상기 분야의 질의를 포함하는 정보 요청이 발생되면 상기 분야의 정보제공시스템의 데이터베이스에서 상기 정보제공시스템 분야에 대응하고 상기 질의에 대응하는 미리 저장된 스키마를 적용하여 정보를 수집하고, 상기 분야에 대응하는 상기 데이터 사전에 근거한 비식별화 모델을 적용하여 상기 수집된 정보들을 비식별화하고, 상기 통신부를 통해 상기 비식별화된 상기 정보를 상기 정보 요청부로 제공하는 제어부를 포함하되,
상기 제어부는,
상기 통신부를 통해 특정 분야의 정보제공시스템 및 정보 요청부 중 어느 하나로부터 상기 분야에 대한 분야 정보를 포함하는 질의를 포함하는 정보 요청을 접수받고 상기 질의를 출력하는 서비스 접수부;
상기 서비스 접수부로부터 질의를 입력받고, 상기 질의에 포함된 상기 분야정보의 분야 및 질의어에 대응하는 스키마를 상기 저장부로부터 로드하여 적용한 후 적용된 스키마에 근거하여 상기 분야의 정보제공시스템으로부터 정보를 수집하여 출력하는 데이터 수집부; 및
상기 분야의 데이터 사전을 참조하여 상기 수집된 수집정보를 단어 단위로 분석하고 분석된 단어의 속성을 정의하여 수집된 정보를 속성별로 분류하는 정보 분석부를 포함하고,
상기 정보 분석부는,
수집된 상기 수집정보를 형태소에 기반하여 상기 수집된 정보에 포함된 단어를 검출하는 데이터 분석부;
상기 데이터 분석부에서 검출된 단어 각각에 대해 상기 데이터 사전을 참조하여 속성을 판별하여 정의하는 속성 판별부; 및
상기 판별된 속성별로 단어들을 정렬하는 데이터 분류부를 포함하며,
상기 제어부는,
상기 속성 판별부를 통해 정의되지 않은 단어 및 단어에 대해 해당 단어의 속성을 정의한 후, 상기 분야의 데이터 사전에 추가하고, 추가된 단어의 속성을 설정하고, 비식별화를 위한 설정을 수행하는 비식별 초기 설정부;
최종적으로 업데이트된 상기 데이터 사전 및 상기 설정된 설정정보에 근거하여 분류된 상기 수집정보를 비식별화하여 출력하는 비식별화부; 및
상기 비식별화된 수집정보를 정보 요청부 및 정보 제공 시스템 중 정보를 요청한 하나 이상으로 제공하는 수집정보 제공부를 더 포함하되,
상기 비식별 초기 설정부는,
상기 분야에 대응하는 데이터 사전을 로드하여 설정하는 비식별화 사전 생성부와,
상기 속성 판별부에서 속성이 판별되지 않은 단어 및 그 단어의 속성을 수신되는 수집정보로부터 파악하여 정의하고 정의된 단어 및 그 속성을 데이터 사전에 추가하는 비식별화 사전 구성부를 포함하는 비식별화 사전 관리부; 및
상기 수집정보와 수집정보의 판별된 속성들에 대한 속성정보를 저장하여 관리하는 속성정보 관리부와,
상기 속성별 적용할 파라미터 및 파라미터 값들을 설정하는 설정정보 관리부를 포함하는 비식별화 구성 관리부를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 시스템.
A communication unit connected to the information providing system, which is the at least one information providing unit, and the information request unit, which is the information requesting unit, and performs data communication;
A storage unit for storing a field-specific data dictionary storing a schema for each field and defining attributes of the words and words included in the collection information of the field; And
When an information request including a query of the field is generated from any one of the information providing system and the information requesting unit in the specific field through the communication unit, the database of the information providing system in the field corresponds to the field of the information providing system, Collecting information by applying a corresponding pre-stored schema, applying a non-identification model based on the data dictionary corresponding to the field to non-identify the collected information, and transmitting the non- And a controller for providing information to the information requesting unit,
Wherein,
A service accepting unit for accepting an information request including a query including field information for the field from any one of an information providing system and an information requesting unit in a specific field via the communication unit and outputting the query;
The information processing system of the present invention receives a query from the service reception unit, loads a schema corresponding to the field of the field information included in the query and a query corresponding to the query term from the storage unit, applies the schema, A data collecting unit for outputting data; And
And an information analyzer for analyzing the collected information by word by referring to the data dictionary of the field and defining attributes of analyzed words and classifying the collected information according to the attributes,
The information analyzing unit,
A data analyzer for detecting a word included in the collected information based on the collected information;
An attribute discrimination unit for discriminating and defining an attribute of each word detected by the data analysis unit by referring to the data dictionary; And
And a data classifier for sorting the words according to the determined attributes,
Wherein,
Identifying the attribute of the word not defined by the attribute determination unit, adding the attribute to the data dictionary of the field, setting the attribute of the added word, and performing non-identification Initial setting section;
A non-discrimination unit for discriminating and outputting the collected information based on the finally updated data dictionary and the set setting information; And
Further comprising a collection information providing unit for providing the non-identified collection information to at least one of the information requesting unit and the information providing system,
The non-identification initial setting unit
A non-discrimination dictionary generating unit for loading and setting a data dictionary corresponding to the field;
A non-discrimination dictionary unit for recognizing and defining the word whose attribute has not been determined by the attribute discrimination unit and the attribute of the word from the received collecting information, and adding the defined word and its attribute to the data dictionary Management; And
An attribute information management unit for storing and managing attribute information on the determined attributes of the collected information and the collected information;
And a setting information management unit for setting parameters and parameter values to be applied for each attribute.
상기 비식별화 모델은 고전적 비식별화 모델이고,
상기 비식별화부는,
수집된 상기 수집정보로부터 식별자를 삭제하고, 상기 설정정보에 근거하여 준식별자를 동질집합으로 분류하고 일반화하여 일정 수(k)의 다른 사람과 구별되지 않도록 비식별 처리하는 k-익명성 처리부;
상기 비식별 처리된 수집정보의 민감정보를 일정 수(l)로 다양화되도록 다양성 처리하는 ℓ-다양성 처리부; 및
상기 수집정보의 특정 데이터 셋에서 구별되지 않는 속성(레코드)들의 미감한 정보의 분포와 전체 수집정보의 민감한 정보의 분포의 차이를 일정 값(t) 이하가 되도록 t-근접성(유사성) 처리하는 t-근접성 처리부를 포함하는 고전적 비식별화부를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 시스템.
9. The method of claim 8,
The non-identifying model is a classical non-identifying model,
The non-
An k-anonymity processing unit for deleting an identifier from the collected collection information, classifying the quasi-identifiers into a homogeneous set based on the setting information, generalizing the quasi-identifiers, and performing non-discrimination processing so as not to be distinguished from others of a certain number k;
A? -Diversity processor for diversifying the sensitivity information of the non-discriminated processed collection information so as to be diversified to a predetermined number (1); And
T-proximity (similarity) processing such that the difference between the distribution of the augmented information of the attributes (records) not distinguished in the specific data set of the collection information and the distribution of the sensitive information of the total collection information is equal to or less than a predetermined value t ≪ / RTI > a proximity processing unit; and a classical non-identifying unit including a proximity processing unit.
상기 비식별화 모델은 , 차분 프라이버시 비식별화 모델이고,
상기 비식별화부는 상기 수집정보들 중 준식별자(QI)에 대해 계산된 노이즈를 통계 기록에 넣어 개인의 식별성을 삭제하여 출력하는 차분 프라이버시를 수행하는 현대적 비식별화부인 차분 프라이버시부를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 시스템.
9. The method of claim 8,
Wherein the non-discrimination model is a differential privacy non-discrimination model,
The non-identifying unit includes a differential privacy unit, which is a modern non-identifying unit for performing differential privacy by deleting the identity of the individual by putting the noise calculated for the quasi-identifier (QI) of the collected information into a statistical record A personal information non-discrimination system having a security function.
상기 제어부가 상기 분야의 정보제공시스템의 데이터베이스에서 상기 정보제공시스템 분야에 대응하고 상기 질의에 대응하는 미리 저장된 스키마를 적용하여 정보를 수집하는 정보 수집 과정;
상기 제어부가 상기 분야에 대응하는 데이터 사전에 근거한 비식별화 모델을 적용하여 상기 수집된 정보들을 비식별화하는 비식별화 과정;
상기 통신부를 통해 상기 비식별화된 상기 정보를 상기 정보 요청부로 제공하는 비식별화 정보 제공 과정;
상기 제어부가 비밀 공유 암호화부를 통해 비식별화부에서 비식별화된 수집정보를 비밀 공유 기법에 의해 암호화하여 수집정보 제공부로 제공하는 비밀 공유 암호화 과정; 및
상기 제어부는 평가부를 통해 상기 비식별화된 수집정보에 대한 비식별화 단계 일반화 계층정보, 상기 비식별화 단계 일반화 계층정보가 저장된 저장공간 정보, 이용 분석 정보 및 위험 분석 정보를 생성하여 출력하는 평가 정보 생성 과정을 포함하되,
평가정보 생성 과정은,
상기 비식별화된 수집정보에 대한 공격 시나리오에 따른 공격 가능성을 분석한 상기 이용 분석 정보를 생성하여 출력하는 이용 분석 단계;
상기 비식별화된 수집정보의 재식별 위험도를 분석하여 위험 분석 정보를 생성하여 출력하는 위험 분석 단계;
상기 비식별화된 수집정보에 대한 비식별화의 각 단계에 대한 일반화 계층 정보인 비식별화 단계 일반화 계층정보를 생성하여 출력하는 데이터 이용 메트릭스 단계: 및
상기 비식별화된 단계에 대한 비식별화 단계 일반화 계층정보가 저장된 공간에 대한 저장공간 정보를 출력하는 해결 공간 제시 단계를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 방법.
A non-identification service receiving step of the control unit receiving an information request including a query of the field from an information providing system and an information requesting unit of a specific field through a communication unit;
An information collecting step of collecting information from the database of the information providing system of the field corresponding to the information providing system field and applying a pre-stored schema corresponding to the query;
A non-discrimination process in which the controller applies a non-discrimination model based on a data dictionary corresponding to the field to discern the collected information;
A non-identification information providing step of providing the non-identified information to the information requesting unit through the communication unit;
Wherein the control unit encrypts the non-identified collection information in the non-identifying unit through the secret sharing cryptography unit and provides the encrypted information to the collection information providing unit. And
The control unit may be configured to generate non-discrimination level generalization layer information for the non-identified collection information, storage space information for storing the non-discrimination level generalization layer information, utilization analysis information, and risk analysis information through an evaluation unit Information generation process,
In the evaluation information generation process,
A utilization analysis step of generating and outputting the utilization analysis information analyzing an attack possibility according to an attack scenario for the non-identified collection information;
A risk analysis step of analyzing the re-identification risk of the non-identified collected information to generate and output the risk analysis information;
And generating and outputting non-identifying step generalization layer information, which is generalized layer information for each step of non-identification of the non-identified collection information,
And outputting a storage space information for a space in which the non-identification step generalization layer information for the non-identified step is stored.
상기 정보 수집 과정은,
상기 제어부가 서비스 접수부로부터 질의를 입력받고, 상기 질의에 포함된 상기 분야 및 질의어에 대응하는 스키마를 저장부로부터 로드하여 적용한 후 적용된 스키마에 근거하여 상기 분야의 정보 제공 시스템으로부터 정보를 수집하여 출력하는 데이터 수집 단계; 및
상기 제어부가 상기 분야의 데이터 사전을 참조하여 상기 수집된 정보 및 상기 질의에 포함된 질의어에 대응하는 단어 및 단어의 속성을 정의하여 수집된 정보를 속성별로 분류하는 정보 분석 단계를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 방법.
12. The method of claim 11,
The information gathering process includes:
The control unit receives a query from the service accepting unit, loads the schema corresponding to the field and the query term included in the query from the storage unit, and collects and outputs information from the information providing system of the field based on the applied schema A data collecting step; And
And an information analysis step of the controller referring to the data dictionary of the field to define attributes of words and words corresponding to the collected information and a query term included in the query, A personal information non-discrimination method having a security function.
상기 정보 분석 단계는,
상기 제어부가 데이터 분석부를 통해 수집된 상기 수집정보를 형태소에 기반하여 상기 수집된 정보에 포함된 단어를 검출하는 데이터 분석 단계;
상기 제어부가 속성 판별부를 통해 상기 데이터 분석부에서 검출된 단어 각각에 대해 데이터 사전을 참조하여 속성을 판별하고 정의하는 속성 판별 단계; 및
상기 제어부가 데이터 분류부를 통해 상기 판별된 속성별로 단어들을 정렬하는 데이터 분류 단계를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 방법.
13. The method of claim 12,
The information analysis step includes:
A data analysis step in which the control unit detects words included in the collected information based on the morphemes of the collected information collected through the data analysis unit;
An attribute discrimination step of the control section discriminating and defining an attribute of each word detected by the data analysis section through an attribute discrimination section by referring to a data dictionary; And
Wherein the control unit includes a data classification step of sorting words by the determined attribute through a data classification unit.
상기 제어부가 상기 분야의 정보제공시스템의 데이터베이스에서 상기 정보제공시스템 분야에 대응하고 상기 질의에 대응하는 미리 저장된 스키마를 적용하여 정보를 수집하는 정보 수집 과정;
상기 제어부가 상기 분야에 대응하는 데이터 사전에 근거한 비식별화 모델을 적용하여 상기 수집된 정보들을 비식별화하는 비식별화 과정;
상기 통신부를 통해 상기 비식별화된 상기 정보를 상기 정보 요청부로 제공하는 비식별화 정보 제공 과정; 및
상기 제어부가 비식별화 초기 설정부를 통해 속성 판별부를 통해 정의되지 않은 단어 및 단어에 대해 해당 단어의 속성을 정의한 후, 상기 분야의 데이터 사전에 추가하고, 추가된 단어의 속성을 설정하고, 비식별화를 위한 설정을 수행하는 비식별 초기 설정 과정을 더 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 방법.
A non-identification service receiving step of the control unit receiving an information request including a query of the field from an information providing system and an information requesting unit of a specific field through a communication unit;
An information collecting step of collecting information from the database of the information providing system of the field corresponding to the information providing system field and applying a pre-stored schema corresponding to the query;
A non-discrimination process in which the controller applies a non-discrimination model based on a data dictionary corresponding to the field to discern the collected information;
A non-identification information providing step of providing the non-identified information to the information requesting unit through the communication unit; And
Wherein the control unit defines attributes of a word and a word which are not defined by the attribute determination unit through the non-identification initialization unit, adds the attribute to the data dictionary of the field, sets the attribute of the added word, Further comprising a non-identification initialization step of performing a setting for the personal information non-discrimination with the security function.
상기 비식별 초기 설정 과정은,
상기 제어부가 비식별화 사전 생성부를 통해 상기 분야에 대응하는 데이터 사전을 로드하여 설정하는 비식별화 사전 생성 단계와
상기 제어부가 비식별화 사전 생성부를 통해 속성 판별부에서 속성이 판별되지 않은 단어 및 그 단어의 속성을 수신되는 수집정보로부터 파악하여 정의하고, 비식별화 사전 구성부를 통해 정의된 단어 및 그 속성을 데이터 사전에 추가하는 비식별화 사전 구성 단계를 포함하는 비식별화 사전 관리 단계; 및
상기 제어부가 속성정보 관리부를 통해 상기 수집정보와 수집정보의 판별된 속성들에 대한 속성정보를 저장하여 관리하는 속성정보 관리단계와,
설정정보 관리부를 통해 상기 속성들 각각에 적용할 파라미터 및 파라미터 값들을 설정하는 설정정보 관리 단계를 포함하는 비식별화 구성 관리 단계를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 방법.
18. The method of claim 17,
In the non-identification initialization process,
The control unit loads and sets a data dictionary corresponding to the field through the non-identifying dictionary creation unit;
The control unit recognizes and defines an unidentified word and an attribute of the word from the received collection information through the non-identifying dictionary creation unit, and identifies the word and its attribute defined through the non-identification pre- A non-identifying dictionary management step including a non-identifying pre-configuration step of adding to the data dictionary; And
An attribute information management step of the control unit storing and managing attribute information on the determined attributes of the collected information and the collected information through the attribute information management unit;
And a setting information management step of setting parameters and parameter values to be applied to each of the attributes through the setting information management unit.
상기 제어부가 상기 분야의 정보제공시스템의 데이터베이스에서 상기 정보제공시스템 분야에 대응하고 상기 질의에 대응하는 미리 저장된 스키마를 적용하여 정보를 수집하는 정보 수집 과정;
상기 제어부가 상기 분야에 대응하는 데이터 사전에 근거한 비식별화 모델을 적용하여 상기 수집된 정보들을 비식별화하는 비식별화 과정; 및
상기 통신부를 통해 상기 비식별화된 상기 정보를 상기 정보 요청부로 제공하는 비식별화 정보 제공 과정을 포함하되,
상기 비식별화 모델은 고전적 비식별화 모델이고,
상기 비식별화 과정은,
k-익명성 처리부를 통해 수집된 수집정보로부터 식별자를 삭제하고, 설정정보에 근거하여 준식별자 중 일부 문자를 비식별 표시 처리하며, 일정 수(k)의 다른 사람과 구별되지 않도록 익명성 처리하는 k-익명성 처리 단계;
ℓ-다양성 처리부를 통해 상기 익명성 처리된 수집정보의 민감정보를 일정 수(l)로 다양화되도록 ℓ-다양성 처리하는 ℓ-다양성 처리 단계; 및
t-근접성 처리부를 통해 상기 수집정보의 특정 데이터 셋에서 구별되지 않는 속성(레코드)들의 미감한 정보의 분포와 전체 수집정보의 민감한 정보의 분포의 차이를 일정 값(t) 이하가 되도록 t-근접성(유사성) 처리하는 t-근접성 처리 단계를 포함하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 방법.
A non-identification service receiving step of the control unit receiving an information request including a query of the field from an information providing system and an information requesting unit of a specific field through a communication unit;
An information collecting step of collecting information from the database of the information providing system of the field corresponding to the information providing system field and applying a pre-stored schema corresponding to the query;
A non-discrimination process in which the controller applies a non-discrimination model based on a data dictionary corresponding to the field to discern the collected information; And
And a non-identification information providing step of providing the non-identified information to the information requesting unit through the communication unit,
The non-identifying model is a classical non-identifying model,
The non-
an identifier is deleted from the collected information collected through the k-anonymity processing unit, an unidentified display process is performed on some of the quasi identifiers based on the setting information, and anonymity processing is performed so as not to be distinguished from other persons of a certain number (k) k-anonymity processing step;
a? -diversity processing step of? -diversifying the sensitivity information of the anonymized collected information to a certain number (l) through diversity processing unit; And
(t) so that the difference between the distribution of the imprecise information of the attributes (records) not distinguished in the specific data set of the collection information and the distribution of the sensitive information of the whole collection information through the t- Proximity processing step for processing the similarity (similarity) of the personal information.
상기 제어부가 상기 분야의 정보제공시스템의 데이터베이스에서 상기 정보제공시스템 분야에 대응하고 상기 질의에 대응하는 미리 저장된 스키마를 적용하여 정보를 수집하는 정보 수집 과정;
상기 제어부가 상기 분야에 대응하는 데이터 사전에 근거한 비식별화 모델을 적용하여 상기 수집된 정보들을 비식별화하는 비식별화 과정; 및
상기 통신부를 통해 상기 비식별화된 상기 정보를 상기 정보 요청부로 제공하는 비식별화 정보 제공 과정을 포함하되,
상기 비식별화 모델은 차분 프라이버시 모델이고,
상기 비식별화 과정은,
차분 프라이버시를 통해 수집정보들 중 준식별자(QI)에 대해 계산된 노이즈를 통계 기록에 넣어 개인의 식별성을 삭제하는 차분 프라이버시를 수행하여 비식별화를 수행하는 것을 특징으로 하는 보안기능을 가지는 개인정보 비식별화 방법.A non-identification service receiving step of the control unit receiving an information request including a query of the field from an information providing system and an information requesting unit of a specific field through a communication unit;
An information collecting step of collecting information from the database of the information providing system of the field corresponding to the information providing system field and applying a pre-stored schema corresponding to the query;
A non-discrimination process in which the controller applies a non-discrimination model based on a data dictionary corresponding to the field to discern the collected information; And
And a non-identification information providing step of providing the non-identified information to the information requesting unit through the communication unit,
The non-discrimination model is a differential privacy model,
The non-
Wherein the discrimination is performed by performing differential privacy by deleting the discrimination of the individual by putting the noise calculated for the quasi-identifier (QI) among the collected information in the statistical record through differential privacy. Non - discrimination method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170091440A KR101859636B1 (en) | 2017-07-19 | 2017-07-19 | Personal information de-identification system with security function and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170091440A KR101859636B1 (en) | 2017-07-19 | 2017-07-19 | Personal information de-identification system with security function and method thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101859636B1 true KR101859636B1 (en) | 2018-05-21 |
Family
ID=62453095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170091440A KR101859636B1 (en) | 2017-07-19 | 2017-07-19 | Personal information de-identification system with security function and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101859636B1 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102115329B1 (en) * | 2019-08-12 | 2020-05-26 | 대영유비텍 주식회사 | Method and system for deidentificating personal information based on public key |
KR20200121106A (en) * | 2019-04-15 | 2020-10-23 | 주식회사 파수 | Method for de-identification supporting de-identification compliance, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR20200121105A (en) * | 2019-04-15 | 2020-10-23 | 주식회사 파수 | Method for analysis on interim result data of de-identification procedure, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR102271793B1 (en) * | 2020-12-11 | 2021-07-02 | (주)씨어스테크놀로지 | System for providing a platform for integrating and processing big data of complex biological signals based on artificial intelligence and method for processing big data of complex biological signals using thereof |
KR20210112469A (en) * | 2020-03-05 | 2021-09-15 | 한라대학교산학협력단 | Method for Personal Information De-identification |
KR20210133625A (en) * | 2020-04-29 | 2021-11-08 | 주식회사 파수 | Method for de-identification of information collection, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR102486447B1 (en) * | 2021-12-07 | 2023-01-09 | 서울과학기술대학교 산학협력단 | Data obfuscation system and method using differential privacy |
KR20230081063A (en) * | 2021-11-30 | 2023-06-07 | (주)휴먼스케이프 | Medical information de-identification system |
KR102643203B1 (en) * | 2023-02-06 | 2024-03-05 | 주식회사 융넷 | Database inference attack control apparatus and method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015176496A (en) | 2014-03-17 | 2015-10-05 | Kddi株式会社 | Risk analysis device, method and program in anonymous data |
JP2016133872A (en) * | 2015-01-16 | 2016-07-25 | 富士通株式会社 | Information anonymity method, information anonymity program and information anonymity device |
JP2016218691A (en) | 2015-05-19 | 2016-12-22 | 株式会社トプコン | Medical information processing apparatus |
-
2017
- 2017-07-19 KR KR1020170091440A patent/KR101859636B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015176496A (en) | 2014-03-17 | 2015-10-05 | Kddi株式会社 | Risk analysis device, method and program in anonymous data |
JP2016133872A (en) * | 2015-01-16 | 2016-07-25 | 富士通株式会社 | Information anonymity method, information anonymity program and information anonymity device |
JP2016218691A (en) | 2015-05-19 | 2016-12-22 | 株式会社トプコン | Medical information processing apparatus |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11816245B2 (en) | 2019-04-15 | 2023-11-14 | Fasoo Co., Ltd. | Method for analysis on interim result data of de-identification procedure, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR102254295B1 (en) * | 2019-04-15 | 2021-05-21 | 주식회사 파수 | Method for de-identification supporting de-identification compliance, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR20200121105A (en) * | 2019-04-15 | 2020-10-23 | 주식회사 파수 | Method for analysis on interim result data of de-identification procedure, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR102248993B1 (en) * | 2019-04-15 | 2021-05-07 | 주식회사 파수 | Method for analysis on interim result data of de-identification procedure, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR20200121106A (en) * | 2019-04-15 | 2020-10-23 | 주식회사 파수 | Method for de-identification supporting de-identification compliance, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR102115329B1 (en) * | 2019-08-12 | 2020-05-26 | 대영유비텍 주식회사 | Method and system for deidentificating personal information based on public key |
KR102318666B1 (en) | 2020-03-05 | 2021-10-29 | 한라대학교산학협력단 | Method for Personal Information De-identification |
KR20210112469A (en) * | 2020-03-05 | 2021-09-15 | 한라대학교산학협력단 | Method for Personal Information De-identification |
KR20210133625A (en) * | 2020-04-29 | 2021-11-08 | 주식회사 파수 | Method for de-identification of information collection, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR102358158B1 (en) * | 2020-04-29 | 2022-02-04 | 주식회사 파수 | Method for de-identification of information collection, apparatus for the same, computer program for the same, and recording medium storing computer program thereof |
KR102271793B1 (en) * | 2020-12-11 | 2021-07-02 | (주)씨어스테크놀로지 | System for providing a platform for integrating and processing big data of complex biological signals based on artificial intelligence and method for processing big data of complex biological signals using thereof |
KR20230081063A (en) * | 2021-11-30 | 2023-06-07 | (주)휴먼스케이프 | Medical information de-identification system |
KR102615618B1 (en) * | 2021-11-30 | 2023-12-20 | (주)휴먼스케이프 | Medical information de-identification system |
KR102486447B1 (en) * | 2021-12-07 | 2023-01-09 | 서울과학기술대학교 산학협력단 | Data obfuscation system and method using differential privacy |
KR102643203B1 (en) * | 2023-02-06 | 2024-03-05 | 주식회사 융넷 | Database inference attack control apparatus and method thereof |
WO2024167379A1 (en) * | 2023-02-06 | 2024-08-15 | 주식회사 융넷 | Device and method for controlling database inference attack |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101859636B1 (en) | Personal information de-identification system with security function and method thereof | |
Di Clemente et al. | Sequences of purchases in credit card data reveal lifestyles in urban populations | |
US20220308942A1 (en) | Systems and methods for censoring text inline | |
CN109241125B (en) | Anti-money laundering method and apparatus for mining and analyzing data to identify money laundering persons | |
Miró-Llinares et al. | Hate is in the air! But where? Introducing an algorithm to detect hate speech in digital microenvironments | |
CN111316273B (en) | Cognitive data anonymization | |
US20180232528A1 (en) | Sensitive Data Classification | |
US20170255790A1 (en) | Systems and methods for processing requests for genetic data based on client permission data | |
US11966823B2 (en) | Systems and methods for intelligent contract analysis and data organization | |
US11625647B2 (en) | Methods and systems for facilitating analysis of a model | |
JP2017091515A (en) | Computer-implemented system and method for automatically identifying attributes for anonymization | |
WO2019080661A1 (en) | Method and device for identifying intention of user | |
CN111309822A (en) | User identity identification method and device | |
Chen et al. | Identifying home locations in human mobility data: an open-source R package for comparison and reproducibility | |
US20210012026A1 (en) | Tokenization system for customer data in audio or video | |
US20170236230A1 (en) | Systems and methods for establishing trust online | |
US20230275900A1 (en) | Systems and Methods for Protecting Against Exposure to Content Violating a Content Policy | |
CN112685799B (en) | Device fingerprint generation method and device, electronic device and computer readable medium | |
US20230004616A1 (en) | System and Method for Ethical Collection of Data | |
CN110752027B (en) | Electronic medical record data pushing method, device, computer equipment and storage medium | |
CN112579931A (en) | Network access analysis method and device, computer equipment and storage medium | |
Li et al. | Moral machines or tyranny of the majority? A systematic review on predictive bias in education | |
CN110895587B (en) | Method and device for determining target user | |
Oprea et al. | Are skepticism and moderation dominating attitudes toward AI‐based technologies? | |
US20210398144A1 (en) | Impact Based Fraud Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant |