KR101704702B1 - Tagging based personal data de-identification system and de-identification method of personal data - Google Patents

Tagging based personal data de-identification system and de-identification method of personal data Download PDF

Info

Publication number
KR101704702B1
KR101704702B1 KR1020160046886A KR20160046886A KR101704702B1 KR 101704702 B1 KR101704702 B1 KR 101704702B1 KR 1020160046886 A KR1020160046886 A KR 1020160046886A KR 20160046886 A KR20160046886 A KR 20160046886A KR 101704702 B1 KR101704702 B1 KR 101704702B1
Authority
KR
South Korea
Prior art keywords
personal information
data
tagging
information
unit
Prior art date
Application number
KR1020160046886A
Other languages
Korean (ko)
Inventor
어성율
김정미
Original Assignee
(주)케이사인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)케이사인 filed Critical (주)케이사인
Priority to KR1020160046886A priority Critical patent/KR101704702B1/en
Application granted granted Critical
Publication of KR101704702B1 publication Critical patent/KR101704702B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • G06F17/30318
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2211/00Indexing scheme relating to details of data-processing equipment not covered by groups G06F3/00 - G06F13/00
    • G06F2211/007Encryption, En-/decode, En-/decipher, En-/decypher, Scramble, (De-)compress

Abstract

A tagging-based personal information de-identification system includes a big data storage place, a personal information non-identification unit and a personal information storage place. The personal information non-identification unit comprises: a personal information searching part for receiving first data from the big data storage place and searching for personal information among the first data; a de-identification part for identifying the personal information among the first data by using a random token and a cipher text; and a tagging generation part for outputting second data obtained by replacing the personal information of the first data with tagging personal information to the big data storage place. The personal information storage place stores the de-identified personal information. So, the personal information can be protected.

Description

태깅 기반의 개인 정보 비식별화 시스템 및 방법 {TAGGING BASED PERSONAL DATA DE-IDENTIFICATION SYSTEM AND DE-IDENTIFICATION METHOD OF PERSONAL DATA}[0001] TAGGING BASED PERSONAL DATA DE-IDENTIFICATION SYSTEM AND DE-IDENTIFICATION METHOD OF PERSONAL DATA [0002]

본 발명은 태깅 기반의 개인 정보 비식별화 시스템 및 이를 이용한 개인 정보 비식별화 방법에 관한 것으로, 보다 구체적으로는 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하여 개인 정보를 보호할 수 있고 재식별화를 통해 데이터의 활용이 가능한 태깅 기반의 개인 정보 비식별화 시스템 및 이를 이용한 개인 정보 비식별화 방법에 관한 것이다.The present invention relates to a tagging-based personal information non-discrimination system and a personal information non-discrimination method using the same, more specifically, to protect personal information by non-identifying personal information with random tokens and ciphertext, A tagging-based personal information non-discrimination system capable of utilizing data through a personal computer, and a personal information non-discrimination method using the same.

보건, 의료, 공공부분, 유통, 마케팅, 제조업 등 다양한 분야에서 빅데이터를 수집하여 활용하고 있으며, 이러한 빅데이터를 활용할 때 개인정보와 프라이버시 문제가 대두되고 있다. Big data is collected and utilized in various fields such as health, medical, public, distribution, marketing, and manufacturing. Personal information and privacy issues are emerging when these big data are utilized.

빅데이터 내의 개인 정보를 비식별화하게 되면 개인 정보가 가지고 있는 의미성이 상실되므로 데이터 활용성이 떨어지는 문제점이 있다. If the personal information in the big data is not identified, the semantic property of the personal information is lost and the data usability is low.

따라서 본 발명은 종래 개인 정보 비식별화 시스템 및 방법이 가지는 문제점들을 해결하기 위한 것으로, 본 발명이 이루고자 하는 목적은 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하여 개인 정보를 보호할 수 있고 재식별화를 통해 데이터의 활용이 가능한 태깅 기반의 개인 정보 비식별화 시스템을 제공하는 것이다.SUMMARY OF THE INVENTION Accordingly, the present invention has been made to solve the problems of the prior art personal information non-discrimination system and method, and it is an object of the present invention to protect private information by distinguishing personal information by random token and cipher text, Based personal information non-discrimination system capable of utilizing the data through a network.

본 발명이 이루고자 하는 다른 목적은 상기 태깅 기반의 개인 정보 비식별화 시스템을 이용한 개인 정보 비식별화 방법을 제공하는 것이다.Another object of the present invention is to provide a method of identifying personal information using the tagging-based personal information non-discrimination system.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 태깅 기반의 개인 정보 비식별화 시스템은 빅데이터 저장소, 개인 정보 비식별화 유닛 및 개인 정보 저장소를 포함한다. 상기 개인 정보 비식별화 유닛은 상기 빅데이터 저장소로부터 제1 데이터를 수신하여 상기 제1 데이터 중 개인 정보를 탐색하는 개인 정보 탐색부, 상기 제1 데이터 중 상기 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하는 비식별화부, 상기 제1 데이터 중 상기 개인 정보를 태깅 개인 정보로 교체한 제2 데이터를 상기 빅데이터 저장소로 출력하는 태깅 생성부를 포함한다. 상기 개인 정보 저장소는 상기 비식별화된 개인 정보를 저장한다.A tagging-based personal information non-discrimination system according to an embodiment of the present invention includes a big data repository, a personal information non-discrimination unit, and a personal information repository. Wherein the personal information non-discrimination unit comprises: a personal information searching unit for receiving first data from the big data repository and searching for personal information among the first data; means for identifying the personal information among the first data as a random token and a cipher text And a tagging unit for outputting second data obtained by replacing the personal information with the tagging personal information among the first data to the big data store. The personal information store stores the non-identified personal information.

본 발명의 일 실시예에 있어서, 상기 비식별화부는 상기 제1 데이터 중 상기 개인 정보의 타입 및 상기 제1 데이터 중 상기 개인 정보의 컨텐츠를 제1 메모리 영역에 복사하고, 상기 개인 정보의 상기 컨텐츠와 동일한 길이의 상기 랜덤 토큰을 생성하며, 상기 개인정보의 상기 컨텐츠에 대응하는 상기 암호문을 생성할 수 있다. 상기 개인 정보 저장소는 상기 랜덤 토큰 및 상기 암호문을 저장할 수 있다. In an embodiment of the present invention, the non-identifying unit copies the type of the personal information and the contents of the personal information of the first data among the first data into the first memory area, And generates the ciphertext corresponding to the content of the personal information. The personal information store may store the random token and the cipher text.

본 발명의 일 실시예에 있어서, 상기 개인 정보 저장소는 상기 비식별화부에서 수신한 상기 암호문이 상기 개인 정보 저장소에 기저장된 암호문들과 중복되지 않을 때에 상기 비식별화부에서 수신한 상기 암호문을 저장할 수 있다. In an embodiment of the present invention, the personal information store may store the ciphertext received by the non-identifying unit when the ciphertext received by the non-identifying unit does not overlap with ciphertexts previously stored in the personal information store have.

본 발명의 일 실시예에 있어서, 상기 개인 정보 비식별화 유닛은 익명화부를 더 포함할 수 있다. 상기 익명화부는 상기 제1 데이터 중 상기 개인 정보의 상기 타입 및 상기 제1 데이터 중 상기 개인 정보의 상기 컨텐츠를 제2 메모리 영역에 복사하고, 상기 제1 데이터 중 상기 개인 정보에 대응하는 익명화 데이터를 생성할 수 있다. 상기 익명화 데이터는 상기 제1 데이터 중 상기 개인 정보로부터 비가역적으로 추출되는 개인의 성질을 나타내는 데이터일 수 있다. In one embodiment of the present invention, the personal information non-discrimination unit may further include an anonymization unit. Wherein the anonymizing unit copies the content of the personal information of the type of the personal information and the first data of the first data into the second memory area and generates anonymization data corresponding to the personal information of the first data can do. The anonymization data may be data representing the property of an individual irreversibly extracted from the personal information of the first data.

본 발명의 일 실시예에 있어서, 상기 태깅 개인 정보는 상기 제1 데이터 중 상기 개인 정보의 상기 타입, 상기 제1 데이터 중 상기 개인 정보의 상기 랜덤 토큰 및 상기 제1 데이터 중 상기 개인 정보에 대응하는 상기 익명화 데이터를 포함할 수 있다. In one embodiment of the present invention, the tagging personal information includes at least one of the type of the personal information among the first data, the random token of the personal information among the first data, And may include the anonymization data.

본 발명의 일 실시예에 있어서, 태깅 기반의 개인 정보 비식별화 시스템은 개인 정보 재식별화 유닛을 더 포함할 수 있다. 상기 개인 정보 재식별화 유닛은 상기 빅데이터 저장소로부터 상기 제2 데이터를 수신하여 상기 제2 데이터 중 상기 태깅 개인 정보를 검색하는 태깅 정보 검색부, 상기 태깅 개인 정보에서 상기 랜덤 토큰을 추출하는 토큰 추출부 및 상기 개인 정보 저장소로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 호출하며, 상기 암호문을 복호화하여, 상기 제2 데이터의 상기 태깅 개인 정보를 태깅 이전의 개인 정보로 교체하는 재식별화부를 포함할 수 있다. In one embodiment of the present invention, the tagging-based personal information non-discrimination system may further comprise a personal information re-identification unit. Wherein the personal information re-identification unit comprises: a tagging information searching unit for receiving the second data from the big data store and searching for the tagging personal information of the second data; a token extracting unit for extracting the random token from the tagging private information; And a re-identification unit for calling the ciphertext corresponding to the random token from the personal information store, decrypting the cipher text, and replacing the tagging private information of the second data with pre-tagged private information. have.

본 발명의 일 실시예에 있어서, 상기 재식별화부는 상기 추출된 랜덤 토큰을 제3 메모리 영역에 복사하고, 상기 개인 정보 저장소로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 검색하며, 상기 암호문을 복호화한 복호화 데이터를 생성하며, 상기 제2 데이터의 상기 태깅 개인 정보를 상기 복호화 데이터로 교체하여 생성한 제3 데이터를 상기 빅데이터 저장소로 출력할 수 있다. In one embodiment of the present invention, the re-identification unit copies the extracted random token into the third memory area, retrieves the ciphertext corresponding to the random token from the personal information storage, decrypts the ciphertext Decrypted data of the first data, and outputting the third data generated by replacing the tagging personal information of the second data with the decrypted data to the big data store.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 태깅 기반의 개인 정보 비식별화 방법은 빅데이터 저장소로부터 제1 데이터를 수신하는 단계, 상기 제1 데이터 중 개인 정보를 탐색하는 단계, 상기 제1 데이터 중 상기 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하는 단계, 상기 비식별화된 개인 정보를 개인 정보 저장소로 출력하는 단계, 상기 제1 데이터 중 상기 개인 정보를 태깅 개인 정보로 교체한 제2 데이터를 생성하는 단계 및 상기 제2 데이터를 상기 빅데이터 저장소로 출력하는 단계를 포함한다.  According to another aspect of the present invention, there is provided a tagging-based personal information non-discrimination method comprising: receiving first data from a big data store; searching personal information among the first data; Identifying non-identified personal information as random tokens and ciphertext among the first data, outputting the non-identified personal information to the personal information storage, replacing the personal information with the tagging private information Generating second data and outputting the second data to the big data store.

본 발명의 일 실시예에 있어서, 상기 태깅 기반의 개인 정보 비식별화 방법은 상기 빅데이터 저장소로부터 상기 제2 데이터를 수신하는 단계, 상기 제2 데이터 중 상기 태깅 개인 정보를 검색하는 단계 및 상기 개인 정보 저장소로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 호출하며, 상기 암호문을 복호화하여, 상기 제2 데이터의 상기 태깅 개인 정보를 태깅 이전의 개인 정보로 교체하는 단계를 더 포함한다. In one embodiment of the present invention, the tagging-based personal information non-discrimination method comprises receiving the second data from the big data store, retrieving the tagging personal information of the second data, Calling the cipher text corresponding to the random token from the information repository, and decrypting the cipher text to replace the tagging private information of the second data with pre-tagging private information.

본 발명에 따른 태깅 기반의 개인 정보 비식별화 시스템 및 이를 이용하는 개인 정보 비식별화 방법은 빅데이터 저장소의 제1 데이터의 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하고 상기 제1 데이터의 상기 개인 정보를 태깅 개인 정보로 교체하여 빅데이터 저장소에 덮어쓰기한다. 따라서, 상기 빅데이터 저장소 내의 개인 정보를 보호할 수 있다. A tagging-based personal information non-discrimination system and a personal information non-discrimination method using the same according to the present invention distinguish personal information of a first data item of a big data store with a random token and a cipher text, Replace the information with your tagging personal information and overwrite the Big Data Store. Accordingly, personal information in the big data storage can be protected.

또한, 상기 랜덤 토큰 및 암호문을 이용하여 비식별화된 개인 정보는 재식별화하여 해당 데이터의 활용이 가능하다. In addition, the non-identified personal information is re-identified using the random token and the cipher text, and the corresponding data can be utilized.

도 1은 본 발명의 일 실시예에 따른 태깅 기반의 개인 정보 비식별화 시스템을 나타내는 블록도이다.
도 2는 도 1의 개인 정보 비식별화 유닛을 나타내는 블록도이다.
도 3은 도 1의 개인 정보 재식별화 유닛을 나타내는 블록도이다.
도 4는 도 2의 개인 정보 탐색부의 동작을 나타내는 표이다.
도 5는 도 1의 개인 정보 저장소의 동작을 나타내는 표이다.
도 6은 도 3의 태깅 정보 검색부의 동작을 나타내는 표이다.
1 is a block diagram illustrating a tagging-based personal information non-discrimination system in accordance with an embodiment of the present invention.
Fig. 2 is a block diagram showing the personal information non-discrimination unit of Fig. 1;
FIG. 3 is a block diagram showing the personal information re-identification unit of FIG. 1;
4 is a table showing the operation of the personal information searching unit of FIG.
5 is a table illustrating the operation of the personal information store of FIG.
6 is a table showing the operation of the tagging information searching unit of FIG.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.For the embodiments of the invention disclosed herein, specific structural and functional descriptions are set forth for the purpose of describing an embodiment of the invention only, and it is to be understood that the embodiments of the invention may be practiced in various forms, The present invention should not be construed as limited to the embodiments described in Figs.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.The present invention is capable of various modifications and various forms, and specific embodiments are illustrated in the drawings and described in detail in the text. It is to be understood, however, that the invention is not intended to be limited to the particular forms disclosed, but on the contrary, is intended to cover all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms may be used for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as a second component, and similarly, the second component may also be referred to as a first component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.It is to be understood that when an element is referred to as being "connected" or "connected" to another element, it may be directly connected or connected to the other element, . On the other hand, when an element is referred to as being "directly connected" or "directly connected" to another element, it should be understood that there are no other elements in between. Other expressions that describe the relationship between components, such as "between" and "between" or "neighboring to" and "directly adjacent to" should be interpreted as well.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises ", or" having ", and the like, are used to specify the presence of stated features, integers, But do not preclude the presence or addition of steps, operations, elements, parts, or combinations thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be construed as meaning consistent with meaning in the context of the relevant art and are not to be construed as ideal or overly formal in meaning unless expressly defined in the present application .

한편, 어떤 실시예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 일어날 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.On the other hand, if an embodiment is otherwise feasible, the functions or operations specified in a particular block may occur differently from the order specified in the flowchart. For example, two consecutive blocks may actually be performed at substantially the same time, and depending on the associated function or operation, the blocks may be performed backwards.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. The same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.

도 1은 본 발명의 일 실시예에 따른 태깅 기반의 개인 정보 비식별화 시스템을 나타내는 블록도이다.1 is a block diagram illustrating a tagging-based personal information non-discrimination system in accordance with an embodiment of the present invention.

도 1을 참조하면, 상기 개인 정보 비식별화 시스템은 빅데이터 저장소(100), 개인 정보 저장소(200), 개인 정보 비식별화 유닛(300)을 포함한다. 상기 개인 정보 비식별화 시스템은 개인 정보 재식별화 유닛(400)을 더 포함할 수 있다. Referring to FIG. 1, the personal information non-discrimination system includes a big data repository 100, a personal information repository 200, and a personal information non-discrimination unit 300. The personal information non-discrimination system may further include a personal information re-identification unit (400).

상기 빅데이터 저장소(100)는 복수의 데이터를 저장하는 데이터 베이스일 수 있다. 상기 빅데이터 저장소(100)는 다양한 수요에 의해 수집된 정형 또는 비정형의 데이터 저장소이다. The big data store 100 may be a database storing a plurality of data. The Big Data Store 100 is a structured or unstructured data store collected by various demands.

예를 들어, 상기 빅데이터 저장소(100)에는 다양한 종류의 데이터가 저장될 수 있으며, 상기 빅데이터 저장소(100)에는 개인 정보가 저장될 수 있다. For example, various types of data may be stored in the big data store 100, and personal information may be stored in the big data store 100.

예를 들어, 상기 개인 정보는 주민 등록 번호, 외국인 등록 번호, 여권 번호, 은행 계좌 번호, 카드 번호 등을 포함할 수 있다. For example, the personal information may include a resident registration number, a foreigner registration number, a passport number, a bank account number, a card number, and the like.

상기 개인 정보 비식별화 유닛(300)은 상기 빅데이터 저장소(100)로부터 제1 데이터를 수신하고 상기 제1 데이터 중 개인 정보는 비식별화하여 상기 개인 정보 저장소(200)에 출력한다. 상기 개인 정보 비식별화 유닛(300)은 상기 제1 데이터 중 개인 정보를 태깅 개인 정보로 교체한 제2 데이터를 생성하여 상기 빅데이터 저장소(100)로 출력한다. 이 때, 상기 빅데이터 저장소(100)의 상기 제1 데이터는 상기 개인 정보 비식별화 유닛(300)에 의해 생성된 상기 제2 데이터로 덮어쓰기 될 수 있다. 결과적으로, 상기 빅데이터 저장소(100)의 정보 중 개인 정보는 상기 개인 정보 비식별화 유닛(300)에 의해 태깅 개인 정보로 바뀌어, 상기 빅데이터 저장소(100)에 저장된다. 따라서, 상기 빅데이터 저장소(100)에는 민감한 개인 정보가 사라져 개인 정보가 보호될 수 있다. The personal information non-discrimination unit 300 receives the first data from the big data repository 100, and outputs the non-identified personal information to the personal information storage 200. The personal information non-discrimination unit 300 generates second data in which the personal information in the first data is replaced with the tagging personal information, and outputs the generated second data to the big data store 100. At this time, the first data of the big data repository 100 may be overwritten with the second data generated by the personal information non-discrimination unit 300. [ As a result, the personal information among the information of the big data repository 100 is converted into the tagging private information by the personal information non-identification unit 300, and is stored in the big data repository 100. Accordingly, sensitive personal information is deleted from the big data storage 100, and personal information can be protected.

상기 개인 정보 저장소(200)는 상기 개인 정보 비식별화 유닛(300)으로부터 상기 비식별화된 개인 정보를 수신하여 저장한다. 예를 들어, 상기 비식별화된 개인 정보는 랜덤 토큰 및 암호문을 포함할 수 있다. The personal information storage 200 receives and stores the non-identified personal information from the personal information non-identification unit 300. For example, the non-identified personal information may include a random token and a cipher text.

상기 개인 정보 재식별화 유닛(300)은 상기 빅데이터 저장소(100)로부터 상기 제2 데이터를 수신하여 상기 제2 데이터의 상기 태깅 개인 정보를 태깅 이전의 개인 정보로 교체한다. 따라서, 상기 개인 정보 재식별화 유닛(300)에 의해 태깅 이전 상태의 개인 정보가 복원 되어, 상기 개인 정보 비식별화 이후에도 상기 개인 정보를 효과적으로 활용할 수 있다.The personal information re-identification unit 300 receives the second data from the big data repository 100 and replaces the tagging personal information of the second data with pre-tagging personal information. Therefore, the personal information re-identifying unit 300 restores the pre-tagging personal information, and can effectively use the personal information after the personal information non-discrimination.

도 2는 도 1의 개인 정보 비식별화 유닛을 나타내는 블록도이다. 도 3은 도 1의 개인 정보 재식별화 유닛을 나타내는 블록도이다. 도 4는 도 2의 개인 정보 탐색부의 동작을 나타내는 표이다. 도 5는 도 1의 개인 정보 저장소의 동작을 나타내는 표이다. 도 6은 도 3의 태깅 정보 검색부의 동작을 나타내는 표이다.Fig. 2 is a block diagram showing the personal information non-discrimination unit of Fig. 1; FIG. 3 is a block diagram showing the personal information re-identification unit of FIG. 1; 4 is a table showing the operation of the personal information searching unit of FIG. 5 is a table illustrating the operation of the personal information store of FIG. 6 is a table showing the operation of the tagging information searching unit of FIG.

도 2, 도 4 및 도 5를 먼저 참조하여, 상기 개인 정보 비식별화 유닛(300)의 동작을 상세히 설명한다. Operations of the personal information non-discrimination unit 300 will be described in detail with reference to FIGS. 2, 4 and 5 first.

상기 개인 정보 비식별화 유닛(300)은 개인 정보 탐색부(320), 비식별화부(340) 및 태깅 생성부(380)를 포함할 수 있다. The personal information non-discrimination unit 300 may include a personal information searching unit 320, a non-identifying unit 340, and a tagging generating unit 380.

상기 개인 정보 탐색부(320)는 상기 빅데이터 저장소(100)로부터 제1 데이터를 수신하여 상기 제1 데이터 중 개인 정보를 탐색한다. 상기 개인 정보 탐색부(320)는 상기 개인 정보의 타입 및 정규식 형태의 검색 패턴을 설정한다. The personal information searching unit 320 receives the first data from the big data repository 100 and searches for the personal information among the first data. The personal information searching unit 320 sets a search pattern of the type of the personal information and the regular expression type.

도 4는 상기 개인 정보 탐색부(320)의 검색 패턴의 예시를 도시하고 있다. 예를 들어, 상기 개인 정보의 타입은 이메일 주소, 전화 번호, 주민 등록 번호 등일 수 있다. 상기 검색 패턴은 상기 제1 데이터의 문자열 내에서 상기 이메일 주소를 찾아 내기 위한 정규식을 포함할 수 있다. 상기 검색 패턴은 상기 제1 데이터의 문자열 내에서 상기 전화 번호를 찾아 내기 위한 정규식을 포함할 수 있다. 상기 검색 패턴은 상기 제1 데이터의 문자열 내에서 상기 주민 등록 번호를 찾아 내기 위한 정규식을 포함할 수 있다.FIG. 4 shows an example of a search pattern of the personal information searching unit 320. FIG. For example, the type of the personal information may be an e-mail address, a telephone number, a resident registration number, and the like. The search pattern may include a regular expression for locating the email address in a string of the first data. The search pattern may include a regular expression for locating the telephone number in a string of the first data. The search pattern may include a regular expression for locating the resident registration number in the string of the first data.

상기 개인 정보 탐색부(320)는 빅데이터 저장소(100)로부터 순차적으로 데이터를 읽어 들이고, 상기 개인 정보 검색 패턴과 일치하는 데이터를 탐색할 수 있다. The personal information searching unit 320 can sequentially read data from the big data store 100 and search for data that matches the personal information search pattern.

상기 비식별화부(340)는 상기 제1 데이터 중 상기 개인 정보를 랜덤 토큰 및 암호문으로 비식별화한다. 상기 비식별화부(340)는 상기 비식별화된 개인 정보를 상기 개인 정보 저장소(200)로 출력한다. The non-identifying unit 340 non-identifies the personal information among the first data by using a random token and a cipher text. The non-identifying unit 340 outputs the non-identified personal information to the personal information storage 200.

상기 비식별화부(340)는 상기 제1 데이터 중 상기 개인 정보의 타입 및 상기 제1 데이터 중 상기 개인 정보의 컨텐츠를 제1 메모리 영역에 복사할 수 있다. 상기 제1 메모리 영역에 저장된 상기 타입 및 상기 컨텐츠의 예시는 아래와 같다. The non-identifying unit 340 may copy the type of the personal information among the first data and the contents of the personal information among the first data to the first memory area. Examples of the type and contents stored in the first memory area are as follows.

예시> 타입(주민등록번호), 컨텐츠(800101-1******)Example> Type (resident registration number), contents (800101-1 ******)

상기 비식별화부(340)는 상기 개인 정보의 상기 컨텐츠와 동일한 길이의 상기 랜덤 토큰을 생성할 수 있다. 예를 들어, 상기 랜덤 토큰은 상기 컨텐츠와 동일한 형식 및 길이를 갖는 문자열이며, 랜덤한 방식으로 생성한다. 예를 들어, 상기 생성된 랜덤 토큰이 상기 개인 정보 저장소(200)에 기저장된 랜덤 토큰과 중복되는 경우, 상기 비식별화부(340)는 다른 랜덤 토큰을 재생성할 수 있다. 상기 랜덤 토큰이 더 생성된 예시는 아래와 같다.The non-identifying unit 340 may generate the random token having the same length as the content of the personal information. For example, the random token is a character string having the same format and length as the content, and is generated in a random manner. For example, when the generated random token is overlapped with the random token previously stored in the personal information storage 200, the non-identifying unit 340 may regenerate another random token. An example where the random token is further generated is as follows.

예시> 타입(주민등록번호), 컨텐츠(800101-1******), 랜덤 토큰(abcdef-hijkadg)Example> Type (resident registration number), contents (800101-1 ******), random token (abcdef-hijkadg)

상기 비식별화부(340)는 상기 개인 정보의 상기 컨텐츠에 대응하는 상기 암호문을 생성할 수 있다. 상기 암호문이 더 생성된 예시는 아래와 같다.The non-identifying unit 340 may generate the cipher text corresponding to the content of the personal information. An example in which the above-described cipher text is further generated is as follows.

예시> 타입(주민등록번호), 컨텐츠(800101-1******), 랜덤 토큰(abcdef-hijkadg), 암호문(nGAB5L2+Et+wRtkQiTPfKA==)Example> Type (resident registration number), contents (800101-1 ******), random token (abcdef-hijkadg), ciphertext (nGAB5L2 + Et + wRtkQiTPfKA ==)

상기 비식별화부(340)는 상기 랜덤 토큰 및 상기 암호문을 상기 개인 정보 저장소(200)에 출력한다. 도 5는 상기 개인 정보 저장소의 테이블 구조의 일 예를 도시한다. The non-identifying unit 340 outputs the random token and the ciphertext to the personal information store 200. FIG. 5 shows an example of the table structure of the personal information storage.

예를 들어, 상기 개인 정보 저장소(200)는 상기 비식별화부(340)에서 수신한 상기 암호문이 상기 개인 정보 저장소에 기저장된 암호문들과 중복되지 않을 때에 상기 비식별화부(340)에서 수신한 상기 암호문을 저장할 수 있다. For example, when the ciphertext received by the non-identifying unit 340 does not overlap with ciphertexts previously stored in the personal information storage, the personal information storage 200 stores the ciphertexts received by the non- You can store the ciphertext.

상기 개인 정보 비식별화 유닛(300)은 익명화부(360)를 더 포함할 수 있다. 상기 익명화부(360)는 상기 제1 데이터 중 상기 개인 정보의 상기 타입 및 상기 제1 데이터 중 상기 개인 정보의 상기 컨텐츠를 제2 메모리 영역에 복사할 수 있다. 상기 제2 메모리 영역에 저장된 상기 타입 및 상기 컨텐츠의 예시는 아래와 같다.The personal information non-discrimination unit 300 may further include an anonymization unit 360. The anonymizing unit 360 may copy the content of the personal information among the first data and the type of the personal information among the first data to the second memory area. Examples of the type and contents stored in the second memory area are as follows.

예시> 타입(주민등록번호), 컨텐츠(800101-1******)Example> Type (resident registration number), contents (800101-1 ******)

상기 익명화부(360)는 상기 제1 데이터 중 상기 개인 정보에 대응하는 익명화 데이터를 생성할 수 있다. 상기 익명화 데이터는 상기 제1 데이터 중 상기 개인 정보로부터 비가역적으로 추출되는 개인의 성질을 나타내는 데이터일 수 있다. The anonymization unit 360 may generate anonymization data corresponding to the personal information among the first data. The anonymization data may be data representing the property of an individual irreversibly extracted from the personal information of the first data.

예를 들어, 상기 예시의 주민 등록 번호인 800101-1******로부터 상기 개인은 1980년 1월 1일에 태어난 남자라는 사실을 추출할 수 있다. 이때, 상기 익명화 데이터는 개인 정보를 지나치게 노출하지 않는 선에서 개인의 성질을 나타내기 위한 유효 데이터일 수 있다. 예를 들어, 상기 예시의 주민 등록 번호인 800101-1******로부터 추출되는 익명화 데이터는 30대일 수 있다. 예를 들어, 상기 예시의 주민 등록 번호인 800101-1******로부터 추출되는 익명화 데이터는 남성일 수 있다. 예를 들어, 상기 예시의 주민 등록 번호인 800101-1******로부터 추출되는 익명화 데이터는 1월생일 수 있다. 상기 익명화 데이터가 추가된 데이터의 예시는 아래와 같다.For example, from the above-mentioned resident registration number 800101-1 ******, the individual can extract the fact that he is a man born on January 1, 1980. At this time, the anonymization data may be valid data for indicating the nature of the individual in a line that does not over-expose the personal information. For example, the number of anonymized data extracted from the resident registration number 800101-1 ****** in the above example may be 30. For example, the anonymization data extracted from the resident registration number 800101-1 ****** in the above example may be male. For example, the anonymization data extracted from the resident registration number 800101-1 ****** in the above example may be January birth date. An example of the data to which the anonymized data is added is as follows.

예시> 타입(주민등록번호), 컨텐츠(800101-1******), 익명화 데이터(30대)Example> Type (resident registration number), contents (800101-1 ******), anonymization data (30 units)

상기 태깅 생성부(380)는 상기 제1 데이터 중 상기 개인 정보를 태깅 개인 정보로 교체한 제2 데이터를 생성한다. 상기 태깅 생성부(380)는 상기 제2 데이터를 상기 빅데이터 저장소(100)로 출력한다. The tagging generation unit 380 generates second data in which the personal information is replaced with tagging personal information among the first data. The tagging generation unit 380 outputs the second data to the big data store 100. [

상기 태깅 개인 정보는 상기 제1 데이터 중 상기 개인 정보의 상기 타입, 상기 제1 데이터 중 상기 개인 정보의 상기 랜덤 토큰 및 상기 제1 데이터 중 상기 개인 정보에 대응하는 상기 익명화 데이터를 포함할 수 있다. 상기 태깅 개인 정보의 예시는 아래와 같다.The tagging personal information may include the type of the personal information among the first data, the random token of the personal information among the first data, and the anonymized data corresponding to the personal information among the first data. An example of the tagging personal information is as follows.

예시> 태깅 개인 정보 = {[타입][랜덤 토큰][익명화 데이터]}Example> Tagging private information = {[type] [random token] [anonymization data]}

예를 들어, 상기 타입은 주민 등록 번호, 여권 번호, 운전 면허 번호, 외국인 등록 번호, 카드 번호, 은행 계좌 번호, 주소, 전화 번호 등일 수 있다. 예를 들어, 상기 랜덤 토큰은 상기 개인 정보의 컨텐츠와 자리수가 동일한 랜덤 문자 및 숫자로 형성된 데이터일 수 있다. 예를 들어, 상기 익명화 데이터는 가명 처리, 총계 처리, 데이터 값 삭제, 범주화 등 다양한 익명화 처리 기법으로 생성될 수 있다. For example, the type may be a resident registration number, passport number, driver's license number, alien registration number, card number, bank account number, address, telephone number, and the like. For example, the random token may be random number and numerical data having the same number of digits as the content of the personal information. For example, the anonymization data may be generated by various anonymization processing techniques such as alias processing, aggregation processing, data value deletion, categorization, and the like.

예를 들어, 태깅 개인 정보의 시작 및 종료 태그는 { }로 표시될 수 있다. 예를 들어, 태깅 개인 정보 내의 데이터의 시작 및 종료 태그는 [ ]로 표시될 수 있다. For example, the start and end tags of the tagging private information may be denoted by {}. For example, the start and end tags of the data in the tagging personal information may be denoted by [].

상기 태깅 생성부(380)는 상기 제1 데이터의 상기 개인 정보를 상기 태깅 개인 정보로 교체하여 상기 제2 데이터를 생성한다. 상기 제1 데이터의 예시 및 상기 제2 데이터의 예시는 아래와 같다.The tagging generation unit 380 generates the second data by replacing the personal information of the first data with the tagging personal information. An example of the first data and an example of the second data are as follows.

예시> Example>

(제1 데이터) 홍길동(800101-1******)씨가 국민은행(102-12345-123456)계좌에서 10만원을 인출하여 유관순(800202-2******)씨의 우리은행(11-222-22222)계좌로 이체하였습니다.(800202-2 ******) from the account of Kookmin Bank (102-12345-123456) to withdraw the 100,000 won from the account of Yoo Gwan-soon (800202-2 ******) I transferred to the bank account (11-222-22222).

(제2 데이터) {[이름][갉낡닳][홍]}({[주민등록번호][abcdef-hijkadg][30대, 남]})씨가 국민은행({[계좌번호][cdf-huoeh-lokefg][""]})계좌에서 10만원을 인출하여 {[이름][닿????][유]}({[주민등록번호][bcdefg-ijrkrgb][30대, 여]})씨의 우리은행({[계좌번호][aa-ije-ppode][""]})계좌로 이체하였습니다.(Account number [cdf-huoeh-hijoeh]), who is a member of Kookmin Bank ({[name] [갉 닳 닳]] lokefg] [""]}) You can withdraw 100,000 won from your account and get a copy of your [{name] [contact] [u]} ({[resident registration number] [bcdefg-ijrkrgb] [30s, Woori Bank ({[account number] [aa-ije-ppode] [""]}) transferred to account.

도 3 및 도 6을 참조하여, 상기 개인 정보 재식별화 유닛(400)의 동작을 상세히 설명한다. The operation of the personal information re-identification unit 400 will be described in detail with reference to FIGS. 3 and 6. FIG.

상기 개인 정보 재식별화 유닛(400)은 태깅 정보 검색부(420), 토큰 추출부(440) 및 재식별화부(460)를 포함한다. The personal information re-identification unit 400 includes a tagging information search unit 420, a token extraction unit 440, and a re-identification unit 460.

상기 태깅 정보 검색부(420)는 상기 빅데이터 저장소(100)로부터 상기 제2 데이터를 수신한다. 상기 태깅 정보 검색부(420)는 상기 제2 데이터 중 상기 태깅 개인 정보를 검색한다. 상기 태깅 생성부(380)가 생성한 제2 데이터의 예시와 같다. The tagging information searching unit 420 receives the second data from the big data store 100. The tagging information searching unit 420 searches the second data for the tagging personal information. And is the same as the example of the second data generated by the tagging generating unit 380.

상기 태깅 정보 검색부(420)는 태깅 개인 정보 검색 패턴을 설정할 수 있다. 상기 태깅 정보 검색부(420)는 상기 태깅 개인 정보의 항목 및 정규식 형태의 검색 패턴을 설정할 수 있다. The tagging information searching unit 420 can set a tagging private information search pattern. The tagging information searching unit 420 can set the items of the tagging personal information and the search pattern of the regular expression type.

도 6은 상기 태깅 정보 검색부(420)의 검색 패턴의 예시를 도시하고 있다. 예를 들어, 상기 태깅 개인 정보의 항목은 태깅 정보, 개인 정보 타입, 랜덤 토큰, 익명화 데이터 등일 수 있다. 상기 검색 패턴은 상기 제2 데이터의 문자열 내에서 상기 태깅 정보를 찾아 내기 위한 정규식을 포함할 수 있다. 상기 검색 패턴은 상기 제2 데이터의 문자열 내에서 상기 개인 정보 타입을 찾아 내기 위한 정규식을 포함할 수 있다. 상기 검색 패턴은 상기 제2 데이터의 문자열 내에서 상기 랜덤 토큰을 찾아 내기 위한 정규식을 포함할 수 있다. 상기 검색 패턴은 상기 제2 데이터의 문자열 내에서 상기 익명화 데이터를 찾아 내기 위한 정규식을 포함할 수 있다.6 shows an example of a search pattern of the tagging information searching unit 420. As shown in FIG. For example, the item of the tagging personal information may be tagging information, personal information type, random token, anonymized data, and the like. The search pattern may include a regular expression for finding the tagging information in a string of the second data. The search pattern may include a regular expression for locating the personal information type in a string of the second data. The search pattern may include a regular expression for locating the random token in a string of the second data. The search pattern may include a regular expression for locating the anonymized data in a string of the second data.

상기 태깅 정보 검색부(420)는 상기 빅데이터 저장소(200)로부터 상기 태깅 개인 정보를 포함하는 데이터들을 순차적으로 읽어들인다. 상기 태깅 정보 검색 패턴과 일치하는 데이터를 탐색할 수 있다. The tagging information searching unit 420 sequentially reads the data including the tagging personal information from the big data store 200. It is possible to search for data that matches the tagging information search pattern.

상기 토큰 추출부(440)는 상기 태깅 개인 정보에서 상기 랜덤 토큰을 추출한다. 예를 들어, 상기 토큰 추출부(440)는 상기 태깅 개인 정보를 제3 메모리 영역에 복사할 수 있다. 상기 제3 메모리 영역에 저장된 상기 태깅 개인 정보의 예시는 아래와 같다.The token extractor 440 extracts the random token from the tagging private information. For example, the token extractor 440 may copy the tagging personal information to the third memory area. An example of the tagging personal information stored in the third memory area is as follows.

예시> 태깅개인정보({[주민등록번호][abcdef-hijkadg][30대, 남]})Example> Tagging personal information ({[Resident Registration Number] [abcdef-hijkadg] [30s, M]}}

상기 토큰 추출부(440)는 상기 태깅 개인 정보로부터 랜덤 토큰을 추출할 수 있다. 상기 랜덤 토큰이 추출된 예시는 아래와 같다. The token extracting unit 440 may extract a random token from the tagging private information. An example of extracting the random token is as follows.

예시> 태깅개인정보({[주민등록번호][abcdef-hijkadg][30대, 남]}), 랜덤 토큰(abcdef-hijkadg)Example> Tagging personal information ({[Resident Registration Number] [abcdef-hijkadg] [30s, M]}), random token (abcdef-hijkadg)

상기 재식별화부(460)는 상기 개인 정보 저장소(200)로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 호출하며, 상기 암호문을 복호화하여, 상기 제2 데이터의 상기 태깅 개인 정보를 태깅 이전의 개인 정보로 교체한다. The re-identification unit 460 calls the cipher text corresponding to the random token from the personal information storage 200, decrypts the cipher text, and stores the tagging private information of the second data as pre-tagging private information Replace.

예를 들어, 상기 재식별화부(460)는 상기 추출된 랜덤 토큰을 제4 메모리 영역에 복사할 수 있다. 상기 제4 메모리 영역에 저장된 상기 랜덤 토큰은 아래와 같다.For example, the re-identification unit 460 may copy the extracted random token to the fourth memory area. The random tokens stored in the fourth memory area are as follows.

예시) 랜덤 토큰(abcdef-hijkadg)Example) The random token (abcdef-hijkadg)

상기 재식별화부(460)는 상기 개인 정보 저장소(200)로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 검색한다. 상기 암호문이 검색된 예시는 아래와 같다. The re-identification unit 460 retrieves the ciphertext corresponding to the random token from the personal information storage 200. An example in which the cipher text is retrieved is as follows.

예시) 랜덤 토큰(abcdef-hijkadg), 암호문(nGAB5L2+Et+wRtkQiTPfKA==) Example) random token (abcdef-hijkadg), ciphertext (nGAB5L2 + Et + wRtkQiTPfKA ==)

상기 재식별화부(460)는 상기 암호문을 복호화한 복호화 데이터를 생성한다. 상기 복호화 데이터가 더 생성된 예시는 아래와 같다.The re-identification unit 460 generates decrypted data by decrypting the cipher text. An example in which the decoded data is further generated is as follows.

예시) 랜덤 토큰(abcdef-hijkadg), 암호문(nGAB5L2+Et+wRtkQiTPfKA==), 복호화 데이터(800101-1******)The random token (abcdef-hijkadg), the cipher text (nGAB5L2 + Et + wRtkQiTPfKA ==), the decrypted data (800101-1 ******)

상기 재식별화부(460)는 상기 제2 데이터의 상기 태깅 개인 정보를 상기 복호화 데이터로 교체하여 제3 데이터를 생성할 수 있다. 상기 재식별화부(460)는 상기 제3 데이터를 상기 빅데이터 저장소(300)로 다시 출력할 수 있다. 이때, 상기 빅데이터 저장소(300)는 상기 제2 데이터에 상기 제3 데이터를 덮어쓰기할 수 있다. 이와는 달리, 상기 빅데이터 저장소(300)는 상기 제3 데이터가 입력되더라도 상기 비식별화된 상기 제2 데이터는 삭제하지 않을 수 있다. The re-identification unit 460 may generate the third data by replacing the tagging personal information of the second data with the decoded data. The re-identification unit 460 may output the third data to the big data store 300 again. At this time, the big data storage 300 may overwrite the third data with the second data. Alternatively, the big data store 300 may not delete the non-identified second data even if the third data is input.

상기 제2 데이터의 예시 및 상기 제3 데이터의 예시는 아래와 같다.An example of the second data and an example of the third data are as follows.

예시> Example>

(제2 데이터) {[이름][갉낡닳][홍]}({[주민등록번호][abcdef-hijkadg][30대, 남]})씨가 국민은행({[계좌번호][cdf-huoeh-lokefg][""]})계좌에서 10만원을 인출하여 {[이름][닿????][유]}({[주민등록번호][bcdefg-ijrkrgb][30대, 여]})씨의 우리은행({[계좌번호][aa-ije-ppode][""]})계좌로 이체하였습니다.(Account number [cdf-huoeh-hijoeh]), who is a member of Kookmin Bank ({[name] [갉 닳 닳]] lokefg] [""]}) You can withdraw 100,000 won from your account and get a copy of your [{name] [contact] [u]} ({[resident registration number] [bcdefg-ijrkrgb] [30s, Woori Bank ({[account number] [aa-ije-ppode] [""]}) transferred to account.

(제3 데이터) 홍길동(800101-1******)씨가 국민은행(102-12345-123456)계좌에서 10만원을 인출하여 유관순(800202-2******)씨의 우리은행(11-222-22222)계좌로 이체하였습니다.(Third data) Hong Gil-dong (800101-1 ******) withdraws 100,000 won from the account of Kookmin Bank (102-12345-123456) I transferred to the bank account (11-222-22222).

상기 제3 데이터는 상기 비식별화 이전의 개인 정보인 상기 제1 데이터와 동일할 수 있다. The third data may be the same as the first data which is the personal information before the non-identification.

상기 태깅 기반의 개인 정보 비식별화 방법은 빅데이터 저장소(100)로부터 제1 데이터를 수신하는 단계, 상기 제1 데이터 중 개인 정보를 탐색하는 단계, 상기 제1 데이터 중 상기 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하는 단계, 상기 비식별화된 개인 정보를 개인 정보 저장소(200)로 출력하는 단계, 상기 제1 데이터 중 상기 개인 정보를 태깅 개인 정보로 교체한 제2 데이터를 생성하는 단계 및 상기 제2 데이터를 상기 빅데이터 저장소(100)로 출력하는 단계를 포함할 수 있다. The tagging-based personal information non-discrimination method includes receiving first data from a big data store (100), searching personal information among the first data, storing the personal information among the first data into a random token And outputting the non-identified personal information to the personal information storage (200), generating second data in which the personal information is replaced with the tagging personal information among the first data, And outputting the second data to the big data store 100.

상기 태깅 기반의 개인 정보 비식별화 방법은 상기 빅데이터 저장소(100)로부터 상기 제2 데이터를 수신하는 단계, 상기 제2 데이터 중 상기 태깅 개인 정보를 검색하는 단계, 상기 태깅 개인 정보에서 상기 랜덤 토큰을 추출하는 단계 및 상기 개인 정보 저장소(200)로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 호출하며, 상기 암호문을 복호화하여, 상기 제2 데이터의 상기 태깅 개인 정보를 태깅 이전의 개인 정보로 교체하는 단계를 더 포함할 수 있다. The tagging-based personal information non-discrimination method may further include receiving the second data from the big data store (100), searching the tagging personal information of the second data, And calling the ciphertext corresponding to the random token from the personal information storage 200, decrypting the cipher text, and replacing the tagging private information of the second data with pre-tagged private information As shown in FIG.

본 실시예에 따르면, 상기 개인 정보 비식별화 유닛(300)은 빅데이터 저장소(100)의 제1 데이터의 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하고 상기 제1 데이터의 상기 개인 정보를 태깅 개인 정보로 교체하여 빅데이터 저장소(100)에 덮어쓰기한다. 따라서, 상기 빅데이터 저장소(100) 내의 개인 정보를 보호할 수 있다. According to this embodiment, the personal information non-discrimination unit 300 identifies the personal information of the first data of the big data store 100 as a random token and a cipher text, and the personal information of the first data is tagged It is overwritten on the big data storage 100 by replacing it with personal information. Accordingly, personal information in the big data repository 100 can be protected.

또한, 상기 개인 정보 재식별화 유닛(400)은 상기 랜덤 토큰 및 암호문을 이용하여 비식별화된 개인 정보를 비식별화 이전 상태로 재식별화할 수 있다. 따라서, 비식별화된 이후라도 해당 데이터의 활용이 가능하다.In addition, the personal information re-identification unit 400 may re-identify the non-identified personal information to a state before the non-identification using the random token and the cipher text. Therefore, it is possible to use the data even after it is unidentified.

본 발명은 개인 정보 비식별화 및 재식별화를 위한 장치, 서버 및 시스템에 적용될 수 있다. 본 발명은 정보의 보안 또는 보호가 필요한 영역에서 널리 적용될 수 있다. The present invention can be applied to devices, servers and systems for personal information non-discrimination and re-identification. The present invention can be widely applied in areas where security or protection of information is required.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 것이다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the present invention as defined by the following claims. It will be understood.

100: 빅데이터 저장소 200: 개인 정보 저장소
300: 개인 정보 비식별화 유닛 320: 개인 정보 탐색부
340: 비식별화부 360: 익명화부
380: 태깅 생성부 400: 개인 정보 재식별화 유닛
420: 태깅 정보 검색부 440: 토큰 추출부
460: 재식별화부
100: Big Data Store 200: Personal Information Store
300: personal information non-discrimination unit 320: personal information search unit
340: non-identifying unit 360: anonymizer
380: tagging generation unit 400: personal information re-identification unit
420: tagging information searching unit 440: token extracting unit
460:

Claims (9)

빅데이터 저장소;
상기 빅데이터 저장소로부터 제1 데이터를 수신하여 상기 제1 데이터 중 개인 정보를 탐색하는 개인 정보 탐색부, 상기 제1 데이터 중 상기 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하는 비식별화부, 상기 제1 데이터 중 상기 개인 정보를 태깅 개인 정보로 교체한 제2 데이터를 상기 빅데이터 저장소로 출력하는 태깅 생성부를 포함하는 개인 정보 비식별화 유닛; 및
상기 비식별화된 개인 정보를 저장하는 개인 정보 저장소를 포함하고,
상기 비식별화부는 상기 제1 데이터 중 상기 개인 정보의 타입 및 상기 제1 데이터 중 상기 개인 정보의 컨텐츠를 제1 메모리 영역에 복사하고, 상기 개인 정보의 상기 컨텐츠와 동일한 길이의 상기 랜덤 토큰을 생성하며, 상기 개인 정보의 상기 컨텐츠에 대응하는 상기 암호문을 생성하며,
상기 개인 정보 저장소는 상기 랜덤 토큰 및 상기 암호문을 저장하고,
상기 개인 정보 비식별화 유닛은 익명화부를 더 포함하고,
상기 익명화부는 상기 제1 데이터 중 상기 개인 정보의 상기 타입 및 상기 제1 데이터 중 상기 개인 정보의 상기 컨텐츠를 제2 메모리 영역에 복사하고, 상기 제1 데이터 중 상기 개인 정보에 대응하는 익명화 데이터를 생성하며,
상기 익명화 데이터는 상기 제1 데이터 중 상기 개인 정보로부터 비가역적으로 추출되는 개인의 성질을 나타내는 데이터인 것을 특징으로 하는 태깅 기반의 개인 정보 비식별화 시스템.
Big Data Store;
A personal information searching unit for receiving first data from the big data repository and searching for personal information among the first data, a non-identifying unit for non-identifying the personal information among the first data by using a random token and a cipher text, And a tagging unit for outputting second data obtained by replacing the personal information of the first data with tagging private information to the big data store. And
And a personal information storage for storing the non-identified personal information,
The non-identifying unit copies the type of the personal information of the first data and the content of the personal information of the first data into the first memory area, and generates the random token having the same length as the content of the personal information Generates the encrypted text corresponding to the content of the personal information,
The private information store storing the random token and the ciphertext,
Wherein the personal information non-discrimination unit further comprises an anonymizing unit,
Wherein the anonymizing unit copies the content of the personal information of the type of the personal information and the first data of the first data into the second memory area and generates anonymization data corresponding to the personal information of the first data In addition,
Wherein the anonymization data is data representing a property of an individual irreversibly extracted from the personal information of the first data.
삭제delete 제1항에 있어서, 상기 개인 정보 저장소는 상기 비식별화부에서 수신한 상기 암호문이 상기 개인 정보 저장소에 기저장된 암호문들과 중복되지 않을 때에 상기 비식별화부에서 수신한 상기 암호문을 저장하는 것을 특징으로 하는 태깅 기반의 개인 정보 비식별화 시스템.The personal information storage system according to claim 1, wherein the personal information storage stores the ciphertext received by the non-cognizant unit when the ciphertext received by the non-cognizant unit does not overlap with ciphertexts previously stored in the personal information store Tagging - based personal information non - discrimination system. 삭제delete 제1항에 있어서, 상기 태깅 개인 정보는 상기 제1 데이터 중 상기 개인 정보의 상기 타입, 상기 제1 데이터 중 상기 개인 정보의 상기 랜덤 토큰 및 상기 제1 데이터 중 상기 개인 정보에 대응하는 상기 익명화 데이터를 포함하는 것을 특징으로 하는 태깅 기반의 개인 정보 비식별화 시스템.2. The method of claim 1, wherein the tagging personal information includes at least one of the type of the personal information of the first data, the random token of the personal information of the first data, Tag information based on the tag information. 제5항에 있어서, 개인 정보 재식별화 유닛을 더 포함하고,
상기 개인 정보 재식별화 유닛은
상기 빅데이터 저장소로부터 상기 제2 데이터를 수신하여 상기 제2 데이터 중 상기 태깅 개인 정보를 검색하는 태깅 정보 검색부;
상기 태깅 개인 정보에서 상기 랜덤 토큰을 추출하는 토큰 추출부; 및
상기 개인 정보 저장소로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 호출하며, 상기 암호문을 복호화하여, 상기 제2 데이터의 상기 태깅 개인 정보를 태깅 이전의 개인 정보로 교체하는 재식별화부를 포함하는 것을 특징으로 하는 태깅 기반의 개인 정보 비식별화 시스템.
6. The apparatus of claim 5, further comprising a personal information re-
The personal information re-identification unit
A tagging information retrieval unit receiving the second data from the big data store and retrieving the tagging private information of the second data;
A token extracting unit for extracting the random token from the tagging private information; And
And a re-identification unit for calling the cipher text corresponding to the random token from the personal information storage and decrypting the cipher text to replace the tagging private information of the second data with pre-tagging private information. Tagging - based personal information non - discrimination system.
제6항에 있어서, 상기 재식별화부는 상기 추출된 랜덤 토큰을 제3 메모리 영역에 복사하고, 상기 개인 정보 저장소로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 검색하며, 상기 암호문을 복호화한 복호화 데이터를 생성하며, 상기 제2 데이터의 상기 태깅 개인 정보를 상기 복호화 데이터로 교체하여 생성한 제3 데이터를 상기 빅데이터 저장소로 출력하는 것을 특징으로 하는 태깅 기반의 개인 정보 비식별화 시스템.The method according to claim 6, wherein the re-identification unit copies the extracted random token into the third memory area, retrieves the ciphertext corresponding to the random token from the private information storage, decrypts the decrypted data And outputs the third data generated by replacing the tagging personal information of the second data with the decoded data to the big data store. 빅데이터 저장소로부터 제1 데이터를 수신하는 단계;
상기 제1 데이터 중 개인 정보를 탐색하는 단계;
상기 제1 데이터 중 상기 개인 정보를 랜덤 토큰 및 암호문으로 비식별화하는 단계;
상기 비식별화된 개인 정보를 개인 정보 저장소로 출력하는 단계;
상기 제1 데이터 중 상기 개인 정보를 태깅 개인 정보로 교체한 제2 데이터를 생성하는 단계; 및
상기 제2 데이터를 상기 빅데이터 저장소로 출력하는 단계를 포함하고,
상기 빅데이터 저장소로부터 상기 제2 데이터를 수신하는 단계;
상기 제2 데이터 중 상기 태깅 개인 정보를 검색하는 단계;
상기 태깅 개인 정보에서 상기 랜덤 토큰을 추출하는 단계; 및
상기 개인 정보 저장소로부터 상기 랜덤 토큰에 대응하는 상기 암호문을 호출하며, 상기 암호문을 복호화하여, 상기 제2 데이터의 상기 태깅 개인 정보를 태깅 이전의 개인 정보로 교체하는 단계를 더 포함하는 태깅 기반의 개인 정보 비식별화 방법.
Receiving first data from a big data store;
Searching personal information among the first data;
Identifying the personal information among the first data as a random token and a cipher text;
Outputting the non-identified personal information to the personal information storage;
Generating second data in which the personal information is replaced with tagging personal information among the first data; And
And outputting the second data to the big data store,
Receiving the second data from the big data store;
Retrieving the tagging personal information from the second data;
Extracting the random token from the tagging private information; And
Further comprising the step of: calling the ciphertext corresponding to the random token from the personal information store and decrypting the cipher text to replace the tagging private information of the second data with pre-tagged private information. Information non - discrimination method.
삭제delete
KR1020160046886A 2016-04-18 2016-04-18 Tagging based personal data de-identification system and de-identification method of personal data KR101704702B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160046886A KR101704702B1 (en) 2016-04-18 2016-04-18 Tagging based personal data de-identification system and de-identification method of personal data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160046886A KR101704702B1 (en) 2016-04-18 2016-04-18 Tagging based personal data de-identification system and de-identification method of personal data

Publications (1)

Publication Number Publication Date
KR101704702B1 true KR101704702B1 (en) 2017-02-08

Family

ID=58154982

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160046886A KR101704702B1 (en) 2016-04-18 2016-04-18 Tagging based personal data de-identification system and de-identification method of personal data

Country Status (1)

Country Link
KR (1) KR101704702B1 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170042522A (en) * 2017-03-29 2017-04-19 안나영 Storage device for processing de-identification request and operating method
KR20190045121A (en) * 2019-04-22 2019-05-02 고려대학교 산학협력단 Method and apparatus for managing data of non-volatile memory in hybrid main memory system
KR102046383B1 (en) * 2019-07-30 2019-11-19 주식회사 바스랩 Method for de-identification of personal identification information for storing and managing authenticiation information based on blockchain
KR20200047992A (en) * 2018-10-29 2020-05-08 주식회사 스파이스웨어 Method for simultaneously processing encryption and de-identification of privacy information, server and cloud computing service server for the same
WO2020096262A1 (en) * 2018-11-08 2020-05-14 삼성전자 주식회사 Electronic device, method for providing personal information using same, and computer-readable recording medium for recording same
CN112052458A (en) * 2020-07-28 2020-12-08 华控清交信息科技(北京)有限公司 Information processing method, device, equipment and medium
KR20210047503A (en) * 2019-10-22 2021-04-30 한국항공대학교산학협력단 Block chain data mapping method and node device using distributed file system to omit block sync process and to provide remote storage
KR102456513B1 (en) * 2022-03-04 2022-10-20 주식회사 테스트웍스 Data augmentation processing system using the generative model and methods therefor
KR20230081063A (en) * 2021-11-30 2023-06-07 (주)휴먼스케이프 Medical information de-identification system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013183250A1 (en) * 2012-06-04 2013-12-12 日本電気株式会社 Information processing device for anonymization and anonymization method
JP2014194621A (en) * 2013-03-28 2014-10-09 Fujitsu Ltd Information concealing device, and information concealing method
KR20150012226A (en) * 2014-09-04 2015-02-03 주식회사 바넷정보기술 Anonymity management system for privacy information in bigdata having fixed form and free style data
KR101630752B1 (en) * 2014-12-02 2016-06-16 주식회사 춘하지원 Data Processing Method for Distributable and Unidentifiable Big Data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013183250A1 (en) * 2012-06-04 2013-12-12 日本電気株式会社 Information processing device for anonymization and anonymization method
JP2014194621A (en) * 2013-03-28 2014-10-09 Fujitsu Ltd Information concealing device, and information concealing method
KR20150012226A (en) * 2014-09-04 2015-02-03 주식회사 바넷정보기술 Anonymity management system for privacy information in bigdata having fixed form and free style data
KR101630752B1 (en) * 2014-12-02 2016-06-16 주식회사 춘하지원 Data Processing Method for Distributable and Unidentifiable Big Data

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102028666B1 (en) * 2017-03-29 2019-10-04 고려대학교 산학협력단 Storage device for processing de-identification request and operating method
KR20170042522A (en) * 2017-03-29 2017-04-19 안나영 Storage device for processing de-identification request and operating method
KR102222600B1 (en) * 2018-10-29 2021-03-04 주식회사 스파이스웨어 Method for simultaneously processing encryption and de-identification of privacy information, server and cloud computing service server for the same
KR20200047992A (en) * 2018-10-29 2020-05-08 주식회사 스파이스웨어 Method for simultaneously processing encryption and de-identification of privacy information, server and cloud computing service server for the same
KR20200053239A (en) * 2018-11-08 2020-05-18 삼성전자주식회사 Electronic device and method of providing personal information, and computer-readable recording medium recording the same
US11797711B2 (en) 2018-11-08 2023-10-24 Samsung Electronics Co., Ltd Electronic device, method for providing personal information using same, and computer-readable recording medium for recording same
KR102580881B1 (en) * 2018-11-08 2023-09-20 삼성전자주식회사 Electronic device and method of providing personal information, and computer-readable recording medium recording the same
WO2020096262A1 (en) * 2018-11-08 2020-05-14 삼성전자 주식회사 Electronic device, method for providing personal information using same, and computer-readable recording medium for recording same
KR20190045121A (en) * 2019-04-22 2019-05-02 고려대학교 산학협력단 Method and apparatus for managing data of non-volatile memory in hybrid main memory system
KR102144124B1 (en) * 2019-04-22 2020-08-13 고려대학교 산학협력단 Method and apparatus for managing data of non-volatile memory in hybrid main memory system
KR102052036B1 (en) * 2019-07-30 2019-12-04 주식회사 바스랩 Method for obtaining data through searching and merging distributed data stored using blockchain
KR102062919B1 (en) 2019-07-30 2020-01-06 주식회사 바스랩 Method for providing blockchain-based data cloud service
KR102051895B1 (en) * 2019-07-30 2019-12-06 주식회사 바스랩 Data management method through distributed storage of data between user and blockchain
KR102041911B1 (en) * 2019-07-30 2019-11-27 주식회사 바스랩 Method for data split and distributed storage using blockchain
KR102046383B1 (en) * 2019-07-30 2019-11-19 주식회사 바스랩 Method for de-identification of personal identification information for storing and managing authenticiation information based on blockchain
KR20210047503A (en) * 2019-10-22 2021-04-30 한국항공대학교산학협력단 Block chain data mapping method and node device using distributed file system to omit block sync process and to provide remote storage
KR102275389B1 (en) 2019-10-22 2021-07-08 한국항공대학교산학협력단 Block chain data mapping method and node device using distributed file system to omit block sync process and to provide remote storage
CN112052458A (en) * 2020-07-28 2020-12-08 华控清交信息科技(北京)有限公司 Information processing method, device, equipment and medium
CN112052458B (en) * 2020-07-28 2024-02-23 华控清交信息科技(北京)有限公司 Information processing method, device, equipment and medium
KR20230081063A (en) * 2021-11-30 2023-06-07 (주)휴먼스케이프 Medical information de-identification system
KR102615618B1 (en) * 2021-11-30 2023-12-20 (주)휴먼스케이프 Medical information de-identification system
KR102456513B1 (en) * 2022-03-04 2022-10-20 주식회사 테스트웍스 Data augmentation processing system using the generative model and methods therefor

Similar Documents

Publication Publication Date Title
KR101704702B1 (en) Tagging based personal data de-identification system and de-identification method of personal data
Kävrestad Fundamentals of digital forensics
US10467420B2 (en) Systems for embedding information in data strings
US8949625B2 (en) Systems for structured encryption using embedded information in data strings
US20070255704A1 (en) Method and system of de-identification of a record
US8204213B2 (en) System and method for performing a similarity measure of anonymized data
US8332655B2 (en) Method for order invariant correlated encrypting of data and SQL queries for maintaining data privacy and securely resolving customer defects
EP3076329A1 (en) Secure text retrieval
CN108881230B (en) Secure transmission method and device for government affair big data
KR20100031248A (en) Method for protecting private information of personal computer and computer readable recording medium therefor
EP4204966A1 (en) Token-based data security systems and methods
Grosvald et al. Free from the Cover Text: A Human-generated Natural Language Approach to Text-based Steganography.
US10657267B2 (en) Symbol string matching mechanism
JP2011081030A (en) Searchable color-encoded file-composing method and searchable color-encoded file system
CN111881480A (en) Private data encryption method and device, computer equipment and storage medium
CN106612283A (en) Method and device for identifying source of downloaded file
Alruban et al. Biometrically linking document leakage to the individuals responsible
Chaw Text steganography in Letter of Credit (LC) using synonym substitution based algorithm
Deshpande et al. The Mask of ZoRRo: preventing information leakage from documents
Franco-Contreras et al. Ontology-guided distortion control for robust-lossless database watermarking: Application to inpatient hospital stay records
US9646171B2 (en) Method and apparatus for correctly binding form objects to encrypted XML data
US10552635B2 (en) Encoding method, encoding device, decoding method and decoding device
Cooke et al. Clowns, Crowds, and Clouds: A Cross-Enterprise Approach to Detecting Information Leakage Without Leaking Information
Khoje Securing Data Platforms: Strategic Masking Techniques for Privacy and Security for B2B Enterprise Data
JP6950162B2 (en) Cryptographic systems, cryptographic methods, cryptographic devices and cryptographic programs

Legal Events

Date Code Title Description
A201 Request for examination
GRNT Written decision to grant