KR102357935B1 - 가명정보 처리 및 재식별 가능성 평가 시스템 - Google Patents

가명정보 처리 및 재식별 가능성 평가 시스템 Download PDF

Info

Publication number
KR102357935B1
KR102357935B1 KR1020210087828A KR20210087828A KR102357935B1 KR 102357935 B1 KR102357935 B1 KR 102357935B1 KR 1020210087828 A KR1020210087828 A KR 1020210087828A KR 20210087828 A KR20210087828 A KR 20210087828A KR 102357935 B1 KR102357935 B1 KR 102357935B1
Authority
KR
South Korea
Prior art keywords
information
pseudonym
risk
identification
data
Prior art date
Application number
KR1020210087828A
Other languages
English (en)
Inventor
김현진
오형섭
Original Assignee
주식회사 데이타스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 데이타스 filed Critical 주식회사 데이타스
Priority to KR1020210087828A priority Critical patent/KR102357935B1/ko
Application granted granted Critical
Publication of KR102357935B1 publication Critical patent/KR102357935B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/006Identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 위험도 측정 기반의 가명정보 처리기술을 자동 추천하고 가명정보의 재식별 가능성을 평가하는 방법 및 시스템에 관한 것으로, 다수의 항목들로 구성되는 개인정보 중 가명처리 목적에 맞게 대상항목이 선정된 데이터 셋을 업로드하는 개인정보 전처리부와; 가명정보 이용 및 활용 형태의 특성, 가명정보 이용자의 처리환경 특성, 가명정보 데이터 항목 자체의 특성을 나타내는 복수의 위험 파라미터별로 이용자가 선택 입력한 값에 따라 상기 선정된 대상항목들의 재식별 가능성 위험도를 산출하는 위험도 산출부와; 상기 재식별 가능성 위험도 산출값에 따라 상기 선정된 대상항목들에 대한 가명처리기술을 자동 추천하고, 이용자에 의해 선택된 가명처리기술을 적용하는 가명정보 처리부와; 가명처리기술에 의해 처리된 가명정보들의 재식별 가능성을 복수의 재식별 가능성 평가지표에 따라 평가하여 상기 적용된 가명처리기술의 적정성을 평가하는 가명처리기술 적정성 평가부;를 포함함을 특징으로 한다.

Description

가명정보 처리 및 재식별 가능성 평가 시스템{Pseudonym information processing and re-identification potential evaluation system}
본 발명은 가명정보 처리 기술에 관한 것으로, 특히 위험도 측정 기반의 가명정보 처리기술을 자동 추천하고 가명정보의 재식별 가능성을 평가하는 방법 및 시스템에 관한 것이다.
빅 데이터란 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자상거래 데이터, 메타 데이터, 웹로그, 무선식별(RFID) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 소셜 데이터, 인터넷 텍스트와 문서, 인터넷 검색 인덱싱 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터이다.
이러한 빅 데이터는 자료를 수집하는 조직 내에서 분석하여 활용하게 되지만, 자료를 수집하는 조직에 따라 수집되는 데이터의 속성에 차이가 있어 다른 조직의 자료를 활용할 필요가 발생하며, 자료를 수집할 능력이나 시스템이 갖추어져 있지 않은 조직의 경우에도 타 조직의 빅데이터나 그들의 조합으로부터 해당 조직이 독특하게 필요로 하는 정보를 분석하여 의사결정에 활용할 필요성이 대두되고 있다.
빅 데이터의 성격상 데이터의 양이 방대할 뿐만 아니라, 대부분의 빅데이터에는 개인신상에 대한 정보가 필연적으로 포함될 수밖에 없는 바, 개인 신상 정보의 유출에 따른 법적 분쟁이 발생할 소지가 다분하기 때문에, 빅 데이터의 조직간의 교류나 유통에는 한계가 있으며, 이에 따라, 빅 데이터의 수집이 가능한 조직의 입장에서는, 개인 신상정보의 유출에 따른 법적 분쟁의 발생을 피하기 위해, 빅데이터 자체를 사업적 목적으로 가공하여 유통하기보다는, 특정 목적에 필요한 정보만을 대상으로 이를 군집화(clustering) 작업이나 통계분석 작업을 통해 통계적 정보 수준으로 가공하여 제공하고 있는 실정이므로, 빅 데이터의 활용을 필요로 하는 조직의 입장에서는 조직의 독특한 사업 환경에 꼭 필요로 하는 분석 자료를 획득하기가 어렵다는 문제점이 있다.
특히 빅 데이터 자체를 사업적 목적으로 가공하여 유통함에 있어서 개인정보를 비식별화한다 하더라도 조합이나 역추적을 통해 개인정보가 유출될 위험이 항시 존재한다.
이러한 문제점을 해결하기 위한 공지 기술의 하나로서 대한민국 등록특허공보 10-1630752호에 게시된 '유통용 비식별 빅 데이터 처리방법'이 있다. 이러한 예시 특허발명에서는 개인정보의 유출 우려 없이 데이터를 비식별하는 방법을 제시하고 있으나, 개인식별 요소를 제거한 데이터라도 데이터의 연결 및 추론을 통해 개인정보를 재식별할 위험을 내포하고 있다. 이에 사전에 재식별 가능성을 평가할 수 있는 시스템의 도입이 절실히 요구되는 바이다.
더 나아가 최근에 개인정보보호법 개정(2020.08.05)으로 '가명정보' 개념이 도입되고 정보 주체자의 동의 없이 개인정보를 가명처리하여 활용할 수 있도록 하는 법률 기반이 마련되었다. 법, 고시, 가이드라인 등을 통해 가명처리 및 가명정보의 결합절차, 방법 등이 구체화되어 제시되었으나, 가명처리기술의 세부적용 방법 및 절차, 처리된 가명정보의 적정성 평가 및 결합된 가명정보의 반출, 활용을 위한 심의평가시 세부적인 평가기술과 방법 및 기준 등의 제시가 없기 때문에, 가명정보의 특정 개인에 대한 재식별 등 개인정보의 유출 혹은 노출 위험성이 상존하며, 평가 수행 간 의사결정이 합리적, 객관적, 기술적으로 이루어지는데 한계가 있다.
대한민국 등록특허공보 10-1630752호 대한민국 등록특허공보 제10-1879266호
이에 본 발명은 상술한 필요성에 따라 창안된 발명으로서, 본 발명의 주요 목적은 가명정보의 이용과 활용은 극대화하면서 특정 개인에 대한 재식별 가능성은 최소화할 수 있는 가명정보 처리 및 재식별 가능성 평가 시스템 및 그 방법을 제공함에 있으며,
더 나아가 본 발명의 또 다른 목적은 가명정보를 처리함에 있어 재식별 가능성의 위험도를 측정하여 가명처리 목적에 부합하는 가명처리기술을 자동 추천할 수 있는 가명정보 처리 및 재식별 가능성 평가 시스템 및 그 방법을 제공함에 있다.
더 나아가 본 발명은 가명처리 목적에 부합하는 가명처리기술을 자동 추천함에 있어 추천된 가명처리기술 및 적용수준의 적정성을 평가할 수 있는 가명처리 및 재식별 가능성 평가 시스템 및 그 방법을 제공함에 있다.
또한 본 발명은 가명정보의 재식별 가능성을 측정할 수 있는 재식별 가능성 평가지표를 개발해 특정 개인의 재식별 가능성에 대한 정량적 평가 방식을 제공할 수 있는 가명정보 처리 및 재식별 가능성 평가 시스템 및 그 방법을 제공함에 있다.
더 나아가 본 발명의 또 다른 목적은 상술한 가명정보 처리 및 재식별 가능성을 평가하기 위한 방법을 구현하기 위한 프로그램 데이터의 집합체가 기록되되 컴퓨터 시스템에 의해 판독 가능한 기록매체를 함께 제공함에 있다.
전술한 목적을 달성하기 위한 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템은,
다수의 항목들로 구성되는 개인정보 데이터셋을 사용자 명에 따라 업로드하고, 업로드된 개인정보 중 가명처리 목적에 맞는 대상항목들을 이용자 선택에 따라 선정하는 개인정보 전처리부와;
가명정보 이용 및 활용 형태의 특성, 가명정보 이용자의 처리환경 특성, 가명정보 데이터 항목 자체의 특성을 나타내는 복수의 위험 파라미터별로 이용자가 선택 입력한 값에 따라 상기 선정된 대상항목들의 재식별 가능성 위험도를 산출하는 위험도 산출부와;
상기 재식별 가능성 위험도 산출값에 따라 상기 선정된 대상항목들에 대한 가명처리기술을 자동 추천하고, 이용자에 의해 선택된 가명처리기술을 적용하는 가명정보 처리부와;
가명처리기술에 의해 처리된 가명정보들의 재식별 가능성을 복수의 재식별 가능성 평가지표에 따라 평가하여 상기 적용된 가명처리기술의 적정성을 평가하는 가명처리기술 적정성 평가부;를 포함함을 특징으로 한다.
다수의 항목들로 구성되는 개인정보 중 가명처리 목적에 맞게 대상항목이 선정된 데이터 셋을 업로드하는 개인정보 전처리부와;
가명정보 이용 및 활용 형태의 특성, 가명정보 이용자의 처리환경 특성, 가명정보 데이터 항목 자체의 특성을 나타내는 복수의 위험 파라미터별로 이용자가 선택 입력한 값에 따라 상기 선정된 대상항목들의 재식별 가능성 위험도를 산출하는 위험도 산출부와;
상기 재식별 가능성 위험도 산출값에 따라 상기 선정된 대상항목들에 대한 가명처리기술을 자동 추천하고, 이용자에 의해 선택된 가명처리기술을 적용하는 가명정보 처리부와;
가명처리기술에 의해 처리된 가명정보들의 재식별 가능성을 복수의 재식별 가능성 평가지표에 따라 평가하여 상기 적용된 가명처리기술의 적정성을 평가하는 가명처리기술 적정성 평가부;를 포함함을 특징으로 하는 가명정보 처리 및 재식별 가능성 평가 시스템.
상술한 구성을 포함하는 시스템에 있어서, 상기 위험도 산출부는,
상기 복수의 위험 파라미터로서, 데이터 제공범위, 이용자의 연계가능 데이터 보유 여부, 이용자의 관련 기술역량, 이용자의 개인정보보호 역량, 이용자의 개인정보 유출 및 노출 사고현황, 가명정보 안전조치계획, 가명정보 데이터 자체 식별자 현황, 가명정보 데이터 자체 식별가능정보 수량, 가명정보 데이터 자체 민감도, 가명정보 노출시 피해예상규모 중 적어도 둘 이상을 이용함을 특징으로 하며,
이러한 가명정보 처리 및 재식별 가능성 평가 시스템에서 상기 위험도 산출부는,
상기 복수의 위험 파라미터별로 이용자가 선택 입력하는 값에 따라 서로 다른 위험도 점수를 부여하고, 부여된 각 위험도 점수에 각 위험 파라미터에 할당되어 있는 가중치를 적용하여 재식별 가능성 위험도를 산출해 상기 선정된 대상항목의 위험수준레벨을 표시 출력함을 또 다른 특징으로 한다.
한편 상술한 구성을 포함하는 가명정보 처리 및 재식별 가능성 평가 시스템에서 상기 가명처리기술 적정성 평가부는,
가명정보에서 개인 식별에 영향을 주는 식별가능정보 항목별 일반화 수준을 평가하기 위한 제1평가 지표와,
가명정보에서 식별 불가한 일반정보 항목별 특이정보를 평가하기 위한 제2평가 지표와,
가명정보에서 개인식별과 관련되는 식별가능정보들의 연결을 통한 동질집합(K익명성)을 평가하기 위한 제3평가 지표와,
가명정보에서 상기 동질집합 기준 일반정보에 대한 항목 연결성(L다양성)을 평가하기 위한 제4평가 지표를 이용해 상기 적용된 가명처리기술의 적정성을 평가함을 또 다른 특징으로 한다.
한편 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 방법은 컴퓨터 시스템에서 실행 가능한 방법으로서,
다수의 항목들로 구성되는 개인정보 데이터셋을 통신망을 통해 전달받거나 메모리에서 업로드하는 단계와;
업로드된 개인정보 중 가명처리 목적에 맞는 대상항목들을 이용자 선택 혹은 명령에 따라 선정 처리하는 단계와;
가명정보 이용 및 활용 형태의 특성, 가명정보 이용자의 처리환경 특성, 가명정보 데이터 항목 자체의 특성을 나타내는 복수의 위험 파라미터별로 이용자가 선택 입력한 값에 따라 상기 선정된 대상항목들의 재식별 가능성 위험도를 산출하는 단계와;
상기 재식별 가능성 위험도 산출값에 따라 상기 선정된 대상항목들에 대한 가명처리기술을 자동 추천 표시하고, 이용자에 의해 선택된 가명처리기술을 적용하여 가명처리하는 단계와;
가명처리된 가명정보들의 재식별 가능성을 복수의 재식별 가능성 평가지표에 따라 평가하여 상기 적용된 가명처리기술의 적정성을 평가하는 단계;를 포함함을 특징으로 하며,
상기 재식별 가능성 위험도를 산출하는 단계는,
상기 복수의 위험 파라미터별로 이용자가 선택 입력하는 값에 따라 서로 다른 위험도 점수를 부여하고, 부여된 각 위험도 점수에 각 위험 파라미터에 할당되어 있는 가중치를 적용하여 재식별 가능성 위험도를 산출해 상기 선정된 대상항목의 위험수준레벨을 표시 출력함을 더 포함함 특징으로 한다.
한편 상술한 가명처리기술의 적정성을 평가하는 단계에서는 위험수준레벨에 따라 상기 복수의 재식별 가능성 평가지표의 평가기준치를 가변 설정해 각 평가 지표에 대한 적정성 여부결과를 표출함을 또 다른 특징으로 한다.
상술한 기술적 과제 해결 수단에 따르면, 본 발명은 특정 개인의 재식별 가능성 평가를 주관적인 평가가 아닌 데이터 분석 기반의 객관적이고도 합리적인 평가가 가능하기에, 특정 개인의 재식별로 인한 개인정보 노출 피해를 최소화할 수 있는 장점이 있다.
또한 본 발명은 위험도 산출(측정)결과와 연계하여 입체적인 재식별 가능성 평가 기술을 제공하는 효과도 있으며, 재식별 가능성 평가의 객관성, 합리성 뿐만 아니라 정확한 개인정보 노출 가능성에 대한 정량적 평가기준을 제공하여 실효적인 개인정보보호 효과를 지원할 수 있다.
더 나아가 본 발명은 가명정보 데이터 셋 전체에 대하여 데이터 성격, 유형을 구분한 항목 단위 평가와 항목간 동질집합과 연결성에 대한 평가를 통해 고려 가능한 모든 요소가 적용된 평가 툴을 제공하는 장점이 있다. 또한 가명정보 재식별 가능성에 대한 국제표준(ISO/IEC 20889)의 특정, 추론, 연결 가능성에 대해 객관적이면서 합리적인 재식별 가능성 결과를 정량적 수치로 제공할 수 있으며, 정량적 수치 기반으로 평가위원들의 주관적인 평가가 아닌 이용, 활용 및 반출 데이터에 대한 분석결과를 제공함으로서 객관성과 합리성을 보장하는 효과가 있다.
아울러 본 발명은 위험도 측정을 위해 데이터 이용, 활용을 위한 제공범위, 가명정보 이용자의 처리환경, 개인정보 데이터 자체 특성 등을 종합적으로 분석하여 통합된 위험도 측정결과를 제공하기에, 개인정보보호를 보장하면서도 데이터 이용, 활용 효과 극대화에 기여할 수 있다.
또한 본 발명은 가명처리 목적달성 및 재식별 가능성 평가와 상호 연계하여 활용할 수 있는 장점이 있고, 특히 가명처리기술 및 적용수준 판단 등의 중요한 기술요소에 관한 사항은 일반적인 이용자가 전문성을 가지고 판단하기에 매우 제한적이었으나, 본 발명은 이러한 이용자의 애로사항을 인식하고 가명처리기술 및 적용수준 자동 추천 기술을 적용함으로써 이용자의 편의성을 극대화한 효과가 있다.
도 1은 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템이 적용 가능한 시스템 구성 예시도.
도 2는 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템의 구성 예시도.
도 3은 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템의 동작을 부연 설명하기 위한 흐름도.
도 4 내지 도 9는 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템의 표시 화면 예시도.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
또한 본 발명의 상세한 설명 및 청구항들에 걸쳐, '포함하다'라는 단어 및 그 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다. 더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 사상 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.
아울러 본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
우선 도 1은 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템이 적용 가능한 시스템 구성을 예시한 것이다.
본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템(200)은 온라인상에서 서비스 가능한 서버 시스템에 탑재되어 가명정보 처리 및 재식별 가능성 평가 서비스를 제공할 수 있다. 즉, 통신망을 통해 접속 가능한 다수의 의뢰인(기관을 포함하는 개념으로 해석하는 것이 바람직함) 단말로부터 개인정보 데이터 셋을 전달받아 사용목적에 맞게 가명정보 처리하되 그 가명정보의 재식별 가능성이 있는지를 평가해 주는 서비스를 제공할 수 있는 것이다.
경우에 따라서는 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템(200)은 특정 기관 혹은 개인(시스템 이용자이기 때문에 이용자라 할 수 있음)의 컴퓨터 시스템에 탑재되어 취합된 개인정보들을 가명정보 처리하되 그 가명정보의 재식별 가능성이 있는지를 평가해 줄 수도 있다.
예시한 두 경우 모두 컴퓨터 시스템에 탑재되어 제공되는 서비스이기 때문에 하기에서는 단순히 컴퓨터 시스템에 탑재되어 개인정보를 가명정보 처리하고 그 처리된 가명정보의 재식별 가능성을 평가하는 것에 대해 집중 설명하기로 한다.
도 2는 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템(200)의 구성도를 예시한 것으로, 상기 가명정보 처리 및 재식별 가능성 평가 시스템은 다수의 기능 블럭들로 구획 가능한 응용 프로그램 코드 데이터의 집합체로서, 컴퓨터 시스템의 저장부(225)에 설치되어 실행 가능한 시스템이다.
보다 구체적으로 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템(200)은 도 2에 도시한 바와 같이,
다수의 항목들(이름, 성별, 나이, 직업... 등)로 구성되는 개인정보 중 가명처리 목적에 맞게 대상항목이 선정된 데이터 셋을 업로드하는 개인정보 전처리부(205)와,
가명정보 이용 및 활용 형태의 특성, 가명정보 이용자의 처리환경 특성, 가명정보 데이터 항목 자체의 특성을 나타내는 복수의 위험 파라미터별로 이용자가 선택 입력한 값에 따라 상기 선정된 대상항목들의 재식별 가능성 위험도를 산출하는 위험도 산출부(210)와,
상기 재식별 가능성 위험도 산출값에 따라 상기 선정된 대상항목들에 대한 가명처리기술을 자동 추천하고, 이용자에 의해 선택된 가명처리기술을 적용하는 가명정보 처리부(215)와,
가명처리기술에 의해 처리된 가명정보들의 재식별 가능성을 복수의 재식별 가능성 평가지표에 따라 평가하여 상기 적용된 가명처리기술의 적정성을 평가하는 가명처리기술 적정성 평가부(220)를 포함한다.
변형 가능한 또 다른 실시예로서, 상기 개인정보 전처리부(205)를 다수의 항목들로 구성되는 개인정보 데이터셋을 사용자 명에 따라 업로드하고, 업로드된 개인정보 중 가명처리 목적에 맞는 대상항목들을 이용자 선택에 따라 선정하는 개인정보 전처리부로 대체할 수도 있다.
참고적으로 상술한 구성에서 위험도 산출부(210)는 상기 복수의 위험 파라미터로서, 데이터 제공범위, 이용자의 연계가능 데이터 보유 여부, 이용자의 관련 기술역량, 이용자의 개인정보보호 역량, 이용자의 개인정보 유출 및 노출 사고현황, 가명정보 안전조치계획, 가명정보 데이터 자체 식별자 현황, 가명정보 데이터 자체 식별가능정보 수량, 가명정보 데이터 자체 민감도, 가명정보 노출시 피해예상규모 중 적어도 둘 이상, 바람직하게는 모두를 이용해 위험도 산출한다
특히, 위험도 산출부(210)는 상기 복수의 위험 파라미터별로 이용자가 선택 입력하는 값에 따라 서로 다른 위험도 점수를 부여하고, 부여된 각 위험도 점수에 각 위험 파라미터에 할당되어 있는 가중치를 적용하여 재식별 가능성 위험도를 산출해 상기 선정된 대상항목의 위험수준레벨을 표시 출력할 수 있다.
이러한 경우 상기 위험 파라미터 각각에 할당되는 가중치는 상기 복수의 위험 파라미터 간 신뢰도 분석, 요인분석, 상관분석 및 비모수 검정을 통하여 얻어진 위험 파라미터 간 가중치 측정결과에 기초하여 정해지는 것이 바람직하다.
참고적으로, 개인정보의 가명처리 후 반출/활용하는 과정과 절차는 개인정보보호위원회에서 고시한 가명정보 처리 가이드라인에 제시되어 있으나, 위험도 산출 혹은 위험도 측정에 관한 세부 기술적용 방법/절차, 가명처리 기술적용에 관한 방법/절차 및 재식별 가능성 평가에 관한 세부 기술적용 방법/절차 등에 대한 내용은 구체화되어 제시되지 못한 상태이며, 기술/방법/절차 등에 대한 표준화가 매우 제한되는 영역으로, 현재 유통되는 대부분의 솔루션은 이용자의 자체 판단에 맡기고 있는 실정이다. 이러한 이용자 입장의 애로사항을 해결하고 실제적인 개인정보의 유출, 노출 사고를 최소화하기 위하여, 본원 출원인은 개인정보 가명처리 및 데이터 결합 간 종합적인 위험수준 판단을 위해 위험 수준에 영향을 미치는 모든 위험인자를 분석 및 식별하여 10개의 위험 파라미터를 선정해 위험도 측정에 이용하였다.
우선 개인정보주체자의 동의 없이 가명처리하고 이용, 활용하는데 가장 중요한 요소는 개인정보 이슈를 없애는 것이나 가명처리 목적달성에도 부합해야 한다. 이에 무조건적인 익명화에 가까운 가명처리가 아닌 목적달성 기반의 최적의 가명처리 기술과 수준적용이 매우 중요한 기능적 요소가 된다. 이를 위해 가명처리 전 과정과 이용, 활용하는 모든 결과를 기준으로 가명정보에 대한 개인정보 유, 노출 위험에 영향을 주는 파라미터 분석이 매우 중요하므로, 개인정보의 가명처리 수행 간 관여되는 요인 중 '가명정보 이용, 활용 형태', '가명정보 이용자의 처리환경', '가명정보 데이터 컬럼 자체 특성'의 3가지 카테고리를 선정하였고, 이러한 카테고리를 통해서 하기 10개의 위험 파라미터를 도출하였다.
①데이터 제공범위,
②이용자의 연계가능 데이터 보유여부,
③이용자의 관련 기술역량,
④이용자의 개인정보보호 역량,
⑤이용자의 개인정보 유, 노출 사고현황,
⑥가명정보 안전조치계획,
⑦데이터 자체 식별자 현황,
⑧데이터 자체 식별가능정보 수량,
⑨데이터 자체 민감도(성),
⑩가명정보 노출 시 피해예상규모
상술한 위험 파라미터 중 데이터 제공범위와 관련된 '가명정보 이용, 활용 형태'는 가명정보 제공범위에 관한 사항으로서 제공범위에 따라 가명정보 재식별 가능성 등에 영향을 미친다. 가명정보 제공범위 5개 유형은 도 6에 나타난 바와 같이 내부 단일, 내부 다수, 외부 단일, 외부 다수, 불특정 다수로 구분할 수 있고, 각 유형별로 위험도 기본 점수를 내부적으로 부여한다. 위험도 점수는 내부 단일이 가장 작은 값을 갖고, 불특정 다수가 가장 큰 값을 가지는 것으로 설정한다.
내부 단일의 개념은 가명정보를 해당조직 내 1개 부서에만 제공하는 형태이며, 내부 다수는 해당조직 내 복수의 부서에게 제공, 외부 단일은 해당조직 외 1개 기관에만 제공, 외부 다수는 해당조직 외 복수의 기관에게 제공, 불특정 다수는 외부에 공개 또는 희망하는 누구나에게나 가명정보를 제공하는 개념이다.
한편, 가명정보 이용자의 처리환경은 이용자가 가지고 있거나 처한 다양한 위험 요인적 환경을 분석하여 선정한 것으로서, 다음과 같이 5개의 위험 파라미터로 세분화할 수 있다.
5개의 위험 파라미터는 이용자의 연계가능 데이터 보유여부, 이용자의 관련 기술역량, 이용자의 개인정보 보호역량, 이용자의 개인정보 유,노출 사고현황, 가명정보 안전조치계획이다.
구체적으로, 이용자의 연계가능 데이터 보유여부는 시스템 이용자가 선택하는 미보유와 보유에 따라 위험도 기본점수를 내부적으로 부여한다.
이용자의 관련 기술역량은 매우 낮음부터 매우 높음까지 구분하여 위험도 기본점수 부여한다. 이러한 기술역량 선택 역시 시스템 이용자가 선택하도록 한다.
이용자의 개인정보 보호역량은 매우 낮음 부터 매우 높음까지 구분하여 위험도 기본점수 부여한다. 이 역시 시스템 이용자가 선택하도록 한다.
이용자의 개인정보 유, 노출 사고현황은 기간별로 사고현황 유무에 따라 점수 부여하며, 이 역시 시스템 이용자가 선택한다.
가명정보 안전조치계획은 있고 없음에 따라 위험도 기본점수 부여한다. 이 역시 시스템 이용자에 의해 선택 가능하다.
한편 '가명정보 데이터 항목 자체 특성'은 데이터 항목들이 갖는 특성에 기인한 위험요인에 대해 분석하여 다음과 같이 4개의 위험 파라미터로 세분화하였다.
4개의 위험 파라미터는 데이터 자체 식별자 현황, 데이터 자체 식별가능정보 수량, 데이터 자체 민감도(성), 가명정보 노출 시 피해예상규모이다.
데이터 자체 식별자 현황은 개인정보 데이터 셋에서 식별자 삭제와 가명처리 여부에 따라 위험도 기본점수를 부여하는데 이 역시 시스템 이용자가 선택할 수 있다.
데이터 자체 식별가능정보 수량은 식별가능정보 항목수에 따라 5개 영역으로 구분하여 위험도 기본점수를 부여하며, 이 역시 시스템 이용자가 선택할 수 있다.
데이터 자체 민감도(성)는 매우 낮음부터 매우 높음까지 구분하여 위험도 기본점수 부여한다.
가명정보 노출 시 피해예상규모 역시 매우 낮음부터 매우 높음까지 구분하여 기본점수 부여한다.
한편, 위험 파라미터별로 시스템 이용자가 선택한 값에 따라 위험도 점수가 부여되면, 부여된 각 위험도 점수에 각 위험 파라미터에 할당되어 있는 가중치를 적용해야 한다. 이러한 가중치 산출 근거에 대해 부연 설명하면,
우선 본 발명의 실시예에서는 위험 파라미터 간 신뢰도분석, 요인분석, 상관분석 및 비모수 검정을 통해서 위험 파라미터 간 가중치를 계산하고, 위험요인별 위험도 기본 점수와 연계하여 위험도 측정 종합 매트릭스를 구현하였다.
보다 구체적으로, 10개의 위험 파라미터는 통계학적 분석 기반으로 각 파라미터 간 크론바흐 알파 계수(Cronbach Alpha Coefficient)기반의 신뢰도 분석, 소수의 인자로 많은 변량 사이의 관계를 설명하는 요인분석, 두 개의 변량에 대해 서로 상관되는 인자항목들 간의 관련성을 분석하는 상관분석, 정규성과 등분산성을 갖지 않더라도 위험 파라미터간 특성 확인 및 비교 검정이 가능한 비모수 검정을 통하여 파라미터 간 가중치를 계산하였다.
위험 파라미터 간 가중치 측정결과에 따라 ① 데이터 제공범위는 a%, ② 이용자의 연계가능 데이터 보유여부는 b%, ③ 이용자의 관련 기술역량은 c%, ④ 이용자의 개인정보보호 역량은 d%, ⑤ 이용자의 개인정보 유, 노출 사고현황은 e%, ⑥ 가명정보 안전조치계획은 f%, ⑦ 데이터 자체 식별자 현황은 g%, ⑧ 데이터 자체 식별가능정보 수량은 h%, ⑨ 데이터 자체 민감도는 i%, ⑩ 가명정보 노출 시 피해예상규모는 j%의 가중치를 적용한다.
추가적으로 도 2에서 설명한 가명정보 처리부(215)는 위험수준레벨에 따라 2개의 가명처리기술과 적용수준을 자동 추천할 수 있으며,
상기 가명처리기술 적정성 평가부(220)는 가명정보에서 개인 식별에 영향을 주는 식별가능정보 항목별 일반화 수준을 평가하기 위한 제1 평가지표와, 가명정보에서 식별 불가한 일반정보 항목별 특이정보를 평가하기 위한 제2 평가지표와, 가명정보에서 개인식별과 관련되는 식별가능정보들의 연결을 통한 동질집합(K익명성)을 평가하기 위한 제3 평가지표와, 가명정보에서 상기 동질집합 기준 일반정보에 대한 항목 연결성(L다양성)을 평가하기 위한 제4 평가지표를 이용해 앞서 적용된 가명처리기술의 적정성을 평가함을 특징으로 한다.
이러한 가명처리기술 적정성 평가부(220)는 앞서 설명한 위험수준레벨에 따라 상기 제1 내지 제4 평가지표의 평가기준치를 가변 설정해 각 평가 지표에 대한 적정성 여부결과를 표출한다.
이하 재식별 가능성 평가지표로 개발된 상기 제1 평가지표 내지 제4 평가지표에 대해 부연 설명하기로 한다.
(1) '식별가능정보 항목별 일반화 수준'을 평가하기 위한 제1 평가지표
식별가능정보는 가명정보에서 개인식별에 영향을 주는 데이터로서 일반화 수준에 따라서 특정개인의 재식별 가능성 수준이 변화되며, 또한 위험도 수준에 따라서도 변화된다. 가명처리의 원칙은 개인정보에서 개인 식별성을 제거하는 것과 국제표준에서 제시하는 재식별 가능성을 최소화하는 두 가지를 준수하여야 한다.
이에 가명정보의 재식별 가능성 평가지표의 가장 기본이 되는 항목은 식별가능정보를 일반화 처리하는 것이며, 객관적이고 합리적이며 기술적인 적용방안이 유일값을 제거하고 동일한 값(예를 들면 특정 항목에서 동일한 직업)들의 빈도 수를 조정하는 작업으로서, 가명처리를 통한 데이터값들의 빈도 수를 위험도 측정수준과 연계하여 적용하는 방안을 적용하였다.
더 나아가 위험도 수준 분위별 최소 빈도 수의 수준을 적용하고 최소 빈도 수 이상의 일반화를 수행하였으며,
최소 빈도 수 적용기준은 가명정보의 재식별 가능성의 3가지 요인(특정/추론/연결 가능성), 식별가능정보 유형, 데이터 유형별 적합한 가명처리기술 적용 및 타 평가지표와의 연계성이 고려된 결과의 평균값을 적용하였다.
결론적으로, 식별가능정보 항목별 일반화 수준을 평가하기 위한 제1 평가지표는 이전 단계에서 산출된 위험도 수준별 최소 빈도 수에 대한 정량적인 기준값을 설정해 평가하는 방식을 채택하였다.
(2) '식별가능정보 외 항목별 특이정보'를 평가하기 위한 제2 평가지표
가명정보는 식별 및 식별가능정보를 제외한 모든 항목을 일반정보로 분류하며, 이때 일반정보는 기본적으로 직접적으로는 개인 식별성이 없다고 인정되는 정보들로 구성된다고 볼 수 있다.
다만, 일반정보가 직접 식별성은 없다고 인정되지만 일반정보 중 최소, 최대 등 데이터 분포에 있어 최상단과 최하단 등 일반적인 기준치를 벗어나는 데이터값(Outlier를 벗어나는 값)을 특이정보로 볼 수 있다. 이에 단독 또는 연결의 형태로 재식별 가능성이 부여되는 값들을 식별해 가명처리하는 것이 필요하다.
특이정보의 기준은 문자형 데이터와 숫자형 데이터 등 데이터 유형에 따라 구분할 수 있고, 식별가능정보의 빈도 수 수준과 동일 수준의 기준을 적용할 수 있다. 단, 숫자형 데이터는 빈도 수가 아닌 최소 분포도를 기준으로 적용한다.
가명정보의 모든 단위 항목들에서 식별정보는 삭제 및 결합키로 적용, 식별가능정보는 가명처리를 통한 개인 식별성 제거, 일반정보는 특이정보 식별 및 제거를 통해 모든 단위 항목에 대한 재식별 가능성 평가는 완료된 것으로 판단할 수 있다.
결론적으로, 식별가능정보 외의 항목별 특이정보 평가지표(제2 평가지표)는 위험도 수준별로 문자형 데이터는 최소 빈도 수를 적용하고 숫자형 데이터는 최소 분포도에 대한 정량적인 기준값을 설정해 평가하는 방식을 채택하였다.
(3) '식별가능정보의 동질집합(K-익명성)'을 평가하기 위한 제3 평가지표
앞서 설명한 (1) 항과 (2) 항에 의거하여 가명정보의 단위 항목별 재식별 가능성 평가는 완료되나, 개인정보 비식별 국제표준(ISO/IEC 20889)에서 제시하는 특정/추론/연결 가능성에 대한 평가는 단위 항목별 평가로는 제한될 수 밖에 없다.
이에 특정/추론/연결 가능성에 대한 재식별 가능성 평가를 위해 가명정보에서 개인 식별과 관련되는 식별가능정보들의 연결을 통한 동질집합에 대한 평가가 반드시 이루어져야 한다.
개인정보 익명화 솔루션에서의 K-익명성 값은 주어지는 K 값을 만족시키기 위해 식별가능정보에 대한 확인이 제한되는 데이터의 변형과 왜곡을 가하는 방식이나, 본 발명에서의 K-익명성 값에 대한 평가는 가명처리기술을 적용하여 가명처리된 데이터의 전체 식별가능정보에 대한 동질집합의 최소값, 즉 K-익명성 최소값을 찾아서 가명정보의 객관적인 익명성 수준을 제시하여 평가하는 방법과 절차를 적용하였다.
본 발명의 실시예에서는 분석이 필요한 일반정보에 대한 데이터 변형과 왜곡은 가하지 않으면서 개인 식별성에 대한 익명성만을 객관적인 수치로서 증명하는 기술을 적용하여, 데이터 활용이라는 가명정보의 취지는 유지하되 국제표준에서 제시하는 가명정보의 재식별 가능성에 대한 정량적이면서 객관적인 평가를 수행할 수 있다는 강점을 반영하였다.
즉, 본 발명의 실시예에서는 상기 (1) 항, (2) 항과 마찬가지로 측정된 위험도 수준에 따라 상호 연계되고 영향을 주는 변수들의 프로그래밍 결과의 평균값을 적용한 정량적인 최소 K-익명성 기준값을 설정해 적용하는 방식으로 식별가능정보의 동질집합(K-익명성)을 평가하였다.
(4) '동질집합 기준 일반정보의 컬럼 연결성(L-다양성)'을 평가하기 위한 제4 평가지표
상기 (3) 항을 통하여 단위 항목이 아닌 항목별 연결성과 상호 작용에 대한 재식별 가능성을 평가할 수 있으나, 마지막으로 연결성과 상호 작용에 포함되지 못한 일반정보에 대한 재식별 가능성 평가는 제한된다고 할 수 있다.
이러한 제한사항을 해결하는 마지막 방법으로서 동질집합 기준 일반정보에 대한 항목간 연결성(L-다양성) 평가는 K-익명성 평가와 마찬가지로 분석 대상이 되는 일반정보에 대한 데이터 변형과 왜곡을 가하지 않는 상태에서 동질집합을 기준으로 각 일반정보의 연결에 대한 다양성만을 분석 및 측정하는 기술을 적용하였다.
L-다양성 측정기술은 국제표준에서 제시한 특정/추론/연결 가능성 평가 수행을 위한 마지막 재식별 가능성 평가 적용에 대한 기술유형으로서, 측정된 위험도 수준에 따라 상호 연계되고 영향을 주는 변수들의 프로그래임 결과의 평균값을 적용한 정량적인 최소 L-다양성 기준값을 설정해 적용하는 방식으로 항목간 연결성(L 다양성)을 평가한다.
이하 도 2에 도시한 바와 같은 기술적 구성을 포함하는 가명정보 처리 및 재식별 가능성 평가 시스템(200)의 동작을 첨부 도면을 참조하여 설명하기로 한다.
도 3은 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템(200)의 동작을 부연 설명하기 위한 흐름도이며, 도 4 내지 도 9는 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템(200)의 동작에 따른 표시 화면을 각각 예시한 것이다.
도 2를 참조하면, 우선 본 발명의 실시예에 따른 가명정보 처리 및 재식별 가능성 평가 시스템(200)의 개인정보 전처리부(205)는 도 4에 도시한 바와 같이 다수의 항목들(이름, 주민번호, 성별, 휴대 전화,... 등)로 구성되는 개인정보 데이터셋을 통신망을 통해 전달받아 업로드하거나, 이용자 명에 따라 메모리(저장부)에서 업로드(S100단계)한다.
이어 개인정보 전처리부(205)는 업로드된 개인정보 중 가명처리 목적(통계 분석과 같은)에 맞는 대상항목들을 이용자 선택 혹은 명령에 따라 선정(S110단계)한다.
대상항목들이 정해지면 위험도 산출부(210)는 도 5에서와 같이 가명정보 이용 및 활용 형태의 특성, 가명정보 이용자의 처리환경 특성, 가명정보 데이터 항목 자체의 특성으로 구분되어 있는 10개의 위험 파라미터별로 이용자가 선택 입력한 값에 따라 상기 선정된 대상항목들의 재식별 가능성 위험도를 산출(S120단계)한다.
즉, 이용자는 도 5에 도시한 표시화면에 표시되는 10개의 위험 파라미터(가명 및 결합 데이터활용, 이용자의 기술역량정도, 개인정보 보호역량, 데이터의 민감정도,.. 등) 각각에 대해 제시된 보기 예에서 하나를 선택 입력한다.
이와 같이 10개의 위험 파라미터별로 제시된 보기에서 하나를 선택하면, 위험도 산출부(210)는 그 선택 입력 값에 따라 위험도 (기본)점수를 부여하고, 부여된 각 위험도 점수에 각 위험 파라미터에 할당되어 있는 가중치를 적용하여 재식별 가능성 위험도를 종합 산출한다.
종합 산출되는 위험도는 가명정보 이용 및 활용 형태의 특성, 가명정보 이용자의 처리환경 특성, 가명정보 데이터 항목 자체의 특성을 종합 평가한 결과라 할 수 있다. 종합 산출되는 위험도 산출값은 종합 측정 결과값을 예를 들어 5분위(매우 높음, 높음, 보통, 낮음, 매우 낮음)로 나누었을 때 어느 하나에 위치하는 것으로 표시될 수 있다.
한편, 가명정보 처리부(215)는 상기 재식별 가능성 위험도 산출값에 따라 상기 선정된 대상항목들에 대한 가명처리기술을 자동 추천 표시하고, 이용자에 의해 선택된 가명처리기술을 적용하여 가명처리(S130단계)한다. 이러한 단계에서 가명정보 처리부(215)는 상기 위험도 산출값에 따라 식별정보, 식별가능정보, 일반정보의 가명화 수준을 추천해 줄 수도 있다. 참고적으로, 상기 선정된 대상항목들에 대한 가명처리기술은 각 항목에 대해 적용 가능한 공지된 가명처리기술(부분삭제, 일방향 암호화, 양방향 암호화, 휴리스틱, UUID 등)들을 이용할 수 있다.
보다 구체적으로, 가명정보 처리부(215)는 위험도 산출값에 따라 식별가능정보를 선별해 도 6에 도시한 바와 같이 식별가능한 항목(도 6에서는 주소, 나이, 직업)을 제시하고, 이용자 가명처리기술을 선택할 수 있도록 유도한다.
이에 이용자는 식별가능한 해당 항목의 선택 버튼을 클릭하면, 가명정보 처리부(215)는 도 7에 도시한 바와 같이 이용 가능한 가명처리기술들을 리스트 형태로 제시한다. 이러한 리스트에는 추천하고자 하는 가명처리기술을 복수로 표시해 주어 선택의 편의성을 제공한다.
참고적으로, 가명처리기술 자동 추천 알고리즘은 위험도 산출값을 기준 데이터로 활용한다. 본 발명의 실시예에 따른 시스템(200)은 가명정보의 이용, 활용은 극대화하면서도 특정 개인에 대한 재식별 가능성은 최소화하는 가장 합리적이고 효율적인 시스템을 제공하는 것이기에, 가명처리기술을 자동 추천하는 판단 기준은 종합적인 위험도 산출값에 근거한다.
즉, 높은 위험도에서는 데이터 유형에 적합한 가명처리기술을 선택하고 가명화 수준을 높이며, 반대로 낮은 위험도에서는 적합한 가명처리기술을 선택하고 가명화 수준을 낮게 처리한다.
가명처리기술과 수준의 결정은 상관관계를 가지며 가명화 수준의 높고 낮음은 개인정보에 대한 일반화 수준을 높이고 낮추는 개념이며, 개인정보 비식별 기술 국제표준(ISO/IEC 20889)에서 제시하고 있는 가명정보의 3가지 재식별 가능성 요인에 대한 선행적인 분석결과를 적용하여 판단하는 알고리즘을 구현하는 것이 바람직할 것이다.
한편 자동 추천은 항목별로 가장 적합한 2개 기술을 추천하되, 가명처리기술과 적용수준을 추천하는 것이 바람직하다. 추천 우선순위는 위험도 측정수준을 고려한 재식별 가능성이 최소화가 가능하면서, 가명처리 목적달성이 가능한 최적방안을 선택하여 1순위와 2순위로 추천한다.
자동 추천 알고리즘 구현기술은 위험도 수준을 5분위로 분류하고, 위험도 수준 분위별로 식별가능정보에 대하여 단위 항목별 일반화 수준, 특이정보 식별, 동질집합 수준 및 동질집합 기준의 일반정보 연결 다양성 수준과 데이터 성격 및 유형에 적합한 가명처리기술을 기반으로 하여 데이터 분포와 개별 값의 빈도 수 분석결과를 반영한 결과값으로 결정된다.
이상에서 예시한 바와 같이 식별가능한 항목에 대해 가명처리기술이 선택되면, 이후 가명정보 처리부(215)는 이용자가 선택한 가명처리기술로 식별가능한 항목에 대해 가명처리한다.
이후 상기 추천된 가명처리기술로 가명화된 정보가 재식별 가능성이 있는지, 즉 가명처리기술이 적정했는지를 검토해야 한다.
이에 본 발명의 실시예에 따른 시스템(200)의 가명처리기술 적정성 평가부(220)는 가명처리된 가명정보들의 재식별 가능성을 도 8에 도시한 바와 같이 4개의 재식별 가능성 평가지표에 따라 평가해 앞서 적용된 가명처리기술의 적정성을 평가(S140단계)하고, 그 평가결과를 데이터 출력부(240)에 표시(S150단계)한다.
적용된 가명처리기술의 적정성 평가는 도 8에 도시한 바와 같이 위험도 산출단계에서 얻어진 위험수준레벨(매우 높음, 높음,..매우 낮음) 혹은 5분위된 위험도 산출값 각각에 대응하여 설정되어 있는 4개의 재식별 가능성 평가지표의 평가기준치를 이용해 평가한다. 예를 들어 위험수준이 매우 높고, 데이터 셋에서 식별가능한 정보로서의 항목이 '직업'이며 그 직업에 속하는 동일한 직업명이 120개 존재한다면, 동일 직업명은 최소 빈도수 30 이상 분포하는 것이므로, 식별가능정보 항목별 일반화 평가지표는 '적정'으로 평가된다.
이와 같이 위험도 산출단계에서 얻어진 위험수준레벨에 따라 각기 설정되어 있는 4개의 재식별 가능성 평가지표의 평가기준을 이용해 가명처리된 가명정보들을 재평가하고 그 결과를 표시 출력(도 9에 예시)함으로써, 시스템 이용자는 적용된 가명처리기술의 적정성을 종합 평가할 수 있다. 만약 적정성 평가결과 부적정한 결과가 얻어지면 해당 항목에 대해 추가 가명 처리(S160단계)할 수 있다.
이상에서 설명한 본 발명의 실시예에 따르면 본 발명은 특정 개인의 재식별 가능성 평가를 주관적인 평가가 아닌 데이터 분석 기반의 객관적이고도 합리적인 평가가 가능하기에, 특정 개인의 재식별로 인한 개인정보 노출 피해를 최소화할 수 있는 장점이 있다.
또한 본 발명은 위험도 산출(측정)결과와 연계하여 입체적인 재식별 가능성 평가 기술을 제공하는 효과도 있으며, 재식별 가능성 평가의 객관성, 합리성 뿐만 아니라 정확한 개인정보 노출 가능성에 대한 정량적 평가기준을 제공하여 실효적인 개인정보보호 효과를 지원할 수 있다.
더 나아가 본 발명은 가명정보 데이터 셋 전체에 대하여 데이터 성격, 유형을 구분한 항목 단위 평가와 항목간 동질집합과 연결성에 대한 평가를 통해 고려 가능한 모든 요소가 적용된 평가 툴을 제공하는 장점이 있다. 또한 가명정보 재식별 가능성에 대한 국제표준(ISO/IEC 20889)의 특정, 추론, 연결 가능성에 대해 객관적이면서 합리적인 재식별 가능성 결과를 정량적 수치로 제공할 수 있으며, 정량적 수치 기반으로 평가위원들의 주관적인 평가가 아닌 이용, 활용 및 반출 데이터에 대한 분석결과를 제공함으로서 객관성과 합리성을 보장하는 효과가 있다.
아울러 본 발명은 위험도 측정을 위해 데이터 이용, 활용을 위한 제공범위, 가명정보 이용자의 처리환경, 개인정보 데이터 자체 특성 등을 종합적으로 분석하여 통합된 위험도 측정결과를 제공하기에, 개인정보보호를 보장하면서도 데이터 이용, 활용 효과 극대화에 기여할 수 있다.
또한 본 발명은 가명처리 목적달성 및 재식별 가능성 평가와 상호 연계하여 활용할 수 있는 장점이 있고, 특히 가명처리기술 및 적용수준 판단 등의 중요한 기술요소에 관한 사항은 일반적인 이용자가 전문성을 가지고 판단하기에 매우 제한적이었으나, 본 발명은 이러한 이용자의 애로사항을 인식하고 가명처리기술 및 적용수준 자동 추천 기술을 적용함으로써 이용자의 편의성을 극대화한 효과가 있다.
이상 본 발명은 도면에 도시된 실시예들을 참고로 설명하였으나 이는 예시적인 것에 불과하며, 당해 기술분야에서 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위에 의해서만 정해져야 할 것이다.

Claims (14)

  1. 다수의 항목들로 구성되는 개인정보 중 가명처리 목적에 맞게 대상항목이 선정된 데이터 셋을 업로드하는 개인정보 전처리부와;
    가명정보 이용 및 활용 형태의 특성, 가명정보 이용자의 처리환경 특성, 가명정보 데이터 항목 자체의 특성을 나타내는 복수의 위험 파라미터별로 이용자가 선택 입력한 값에 따라 상기 선정된 대상항목들의 재식별 가능성 위험도를 산출하는 위험도 산출부와;
    상기 재식별 가능성 위험도 산출값에 따라 상기 선정된 대상항목들에 대한 가명처리기술을 자동 추천하고, 이용자에 의해 선택된 가명처리기술을 적용하는 가명정보 처리부와;
    가명처리기술에 의해 처리된 가명정보들의 재식별 가능성을 복수의 재식별 가능성 평가지표에 따라 평가하여 상기 적용된 가명처리기술의 적정성을 평가하는 가명처리기술 적정성 평가부;를 포함하되, 상기 위험도 산출부는,
    상기 복수의 위험 파라미터로서, 데이터 제공범위, 이용자의 연계가능 데이터 보유 여부, 이용자의 관련 기술역량, 이용자의 개인정보보호 역량, 이용자의 개인정보 유출 및 노출 사고현황, 가명정보 안전조치계획, 가명정보 데이터 자체 식별자 현황, 가명정보 데이터 자체 식별가능정보 수량, 가명정보 데이터 자체 민감도, 가명정보 노출시 피해예상규모 중 적어도 둘 이상을 이용함을 특징으로 하는 가명정보 처리 및 재식별 가능성 평가 시스템.
  2. 삭제
  3. 청구항 1에 있어서, 상기 위험도 산출부는,
    상기 복수의 위험 파라미터별로 이용자가 선택 입력하는 값에 따라 서로 다른 위험도 점수를 부여하고, 부여된 각 위험도 점수에 각 위험 파라미터에 할당되어 있는 가중치를 적용하여 재식별 가능성 위험도를 산출해 상기 선정된 대상항목의 위험수준레벨을 표시 출력함을 특징으로 하는 가명정보 처리 및 재식별 가능성 평가 시스템.
  4. 청구항 3에 있어서, 상기 위험 파라미터 각각에 할당되는 가중치는,
    상기 복수의 위험 파라미터 간 신뢰도 분석, 요인분석, 상관분석 및 비모수 검정을 통하여 얻어진 위험 파라미터 간 가중치 측정결과에 기초하여 정해짐을 특징으로 하는 가명정보 처리 및 재식별 가능성 평가 시스템.
  5. 청구항 3에 있어서, 상기 가명정보 처리부는,
    상기 위험수준레벨에 따라 2개의 가명처리기술과 적용수준을 자동 추천함을 특징으로 하는 가명정보 처리 및 재식별 가능성 평가 시스템.
  6. 청구항 3에 있어서, 상기 가명처리기술 적정성 평가부는,
    가명정보에서 개인 식별에 영향을 주는 식별가능정보 항목별 일반화 수준을 평가하기 위한 제1평가 지표와,
    가명정보에서 식별 불가한 일반정보 항목별 특이정보를 평가하기 위한 제2평가 지표와,
    가명정보에서 개인식별과 관련되는 식별가능정보들의 연결을 통한 동질집합(K익명성)을 평가하기 위한 제3평가 지표와,
    가명정보에서 상기 동질집합 기준 일반정보에 대한 항목 연결성(L다양성)을 평가하기 위한 제4평가 지표를 이용해 상기 적용된 가명처리기술의 적정성을 평가함을 특징으로 하는 가명정보 처리 및 재식별 가능성 평가 시스템.
  7. 청구항 6에 있어서, 상기 가명처리기술 적정성 평가부는,
    상기 위험수준레벨에 따라 상기 제1 내지 제4평가 지표의 평가기준치를 가변 설정해 각 평가 지표에 대한 적정성 여부결과를 표출함을 특징으로 하는 가명정보 처리 및 재식별 가능성 평가 시스템.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
KR1020210087828A 2021-07-05 2021-07-05 가명정보 처리 및 재식별 가능성 평가 시스템 KR102357935B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210087828A KR102357935B1 (ko) 2021-07-05 2021-07-05 가명정보 처리 및 재식별 가능성 평가 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210087828A KR102357935B1 (ko) 2021-07-05 2021-07-05 가명정보 처리 및 재식별 가능성 평가 시스템

Publications (1)

Publication Number Publication Date
KR102357935B1 true KR102357935B1 (ko) 2022-02-08

Family

ID=80252064

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210087828A KR102357935B1 (ko) 2021-07-05 2021-07-05 가명정보 처리 및 재식별 가능성 평가 시스템

Country Status (1)

Country Link
KR (1) KR102357935B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101630752B1 (ko) 2014-12-02 2016-06-16 주식회사 춘하지원 유통용 비식별 빅데이터 처리 방법
KR101663288B1 (ko) * 2015-09-04 2016-10-07 (주)이지서티 개인정보 모니터링 시스템 및 방법
KR101879266B1 (ko) 2016-09-27 2018-07-17 (주)조은아이앤에스 개인정보 비식별화 검증 시스템
KR20190050691A (ko) * 2017-11-03 2019-05-13 한국전자통신연구원 전주기적 비식별화 관리 장치 및 방법
KR20210049546A (ko) * 2019-10-25 2021-05-06 중앙대학교 산학협력단 개인정보 보호를 위한 비식별화 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101630752B1 (ko) 2014-12-02 2016-06-16 주식회사 춘하지원 유통용 비식별 빅데이터 처리 방법
KR101663288B1 (ko) * 2015-09-04 2016-10-07 (주)이지서티 개인정보 모니터링 시스템 및 방법
KR101879266B1 (ko) 2016-09-27 2018-07-17 (주)조은아이앤에스 개인정보 비식별화 검증 시스템
KR20190050691A (ko) * 2017-11-03 2019-05-13 한국전자통신연구원 전주기적 비식별화 관리 장치 및 방법
KR20210049546A (ko) * 2019-10-25 2021-05-06 중앙대학교 산학협력단 개인정보 보호를 위한 비식별화 방법 및 장치

Similar Documents

Publication Publication Date Title
Chen et al. The construction and application of Six Sigma quality indices
Al-Azzam The impact of service quality dimensions on customer satisfaction: A field study of Arab bank in Irbid city, Jordan
Toor et al. The impact of e-banking on customer satisfaction: Evidence from banking sector of Pakistan
US10423803B2 (en) Smart suppression using re-identification risk measurement
Mecredy et al. Are promoters valuable customers? An application of the net promoter scale to predict future customer spend
Caballero et al. A Data Quality Measurement Information Model Based On ISO/IEC 15939.
KR102490529B1 (ko) 전주기적 비식별화 관리 장치 및 방법
Wu et al. Developing a variables repetitive group sampling scheme by considering process yield and quality loss
Ma Assessing Serviceability and Reliability to Affect Customer Satisfaction of Internet Banking.
Musyaffi et al. Understanding Digital Banking Adoption During Post-Coronavirus Pandemic: An Integration of Technology Readiness and Technology Acceptance Model.
Van der Westhuizen Incremental validity of work-related sense of coherence in predicting work wellness
CN111813808A (zh) 一种大数据快速脱敏的方法及装置
JP6644767B2 (ja) 相互相関に基づかれる階層的なデータ分析に関する方法及び装置
KR102357935B1 (ko) 가명정보 처리 및 재식별 가능성 평가 시스템
Aven et al. On how to understand and express enterprise risk
Agarwal Developing a structured metric to measure privacy risk in privacy impact assessments
Barhoum et al. Composite performance indicators for helmet and seat-belt enforcement as imprecise data
KR102418984B1 (ko) 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템 및 그 제어방법
US20150199358A1 (en) System and Method For Providing Unidimensional Scale Extraction from a Multidimensional Entity
Dastgeer et al. Examining data and measurement model specification in SEM: An illustration from management development
Talha et al. An analysis of moral intensity, intention and socially responsible investment behaviour among fund managers of Malaysian unit trust companies
Cirillo et al. Effect of outliers on the GFI quality adjustment index in structural equation model and proposal of alternative indices
JP2023547570A (ja) 非識別化データベースにおける再識別リスクを監視する方法及びシステム
Wang et al. Single mixed sampling plan based on yield index for linear profiles
Adi et al. Mediation of motivation on communication, equity and influence organizational commitment to employee performance

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant