KR102670080B1

KR102670080B1 - 데이터 재식별 가능성 감소를 위한 데이터 처리 방법

Info

Publication number: KR102670080B1
Application number: KR1020230104332A
Authority: KR
Inventors: 이강원; 한주연; 성민경; 김용호; 권정현
Original assignee: (주)이지서티
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2024-05-28

Abstract

본 발명은 데이터 재식별 가능성 감소를 위한 데이터 처리 방법에 관한 것으로, 본 발명에 따른 방법은 처리대상 데이터셋의 칼럼별로 범주별 빈도수를 구하는 단계, 범주별 빈도수가 미리 정해진 특이정보 임계값보다 작은 범주를 특이정보로 판단하는 단계, 처리대상 데이터셋의 각 행별로 특이정보 건수를 구하는 단계 - 특이정보 건수는 해당 행에서 특이정보로 판단된 데이터 값의 개수임 -, 및 각 행별로 구해진 특이정보 건수에 따라 각 행별로 특이정보 처리 기법을 결정하는 단계를 포함한다. 본 발명에 의하면 전문가의 개입을 없애거나 최소화하면서 데이터 재식별 가능성 감소를 위한 데이터의 특이정보를 처리할 수 있는 효과를 가진다.

Description

데이터 재식별 가능성 감소를 위한 데이터 처리 방법{Data processing method for reducing possibility of data re-identification}

본 발명은 데이터 재식별 가능성 감소를 위한 데이터 처리 방법에 관한 것이다.

가명처리된 개인정보 활용에 대한 관심이 높아짐에 따라 가명정보의 재식별 가능성에 대한 문제가 대두되고 있다. 특히 특정 개인에 대한 식별 가능성이 매우 높은 특이정보에 대한 처리가 필요하지만 이를 처리하는 방법에 대한 연구는 많지 않으며, 통계학이나 인공지능 학습용에서 활용되는 이상치 탐지 기법 적용은 적합하지 않다.

가명정보에서 특이정보란 희귀 성씨, 직업 또는 특정 지역의 고액급여수급자, 고액체납금액 등 다른 정보와 확연히 구분되거나 비정상적으로 분포를 벗어난 값으로서, 특정 개인의 식별 가능성이 매우 높은 정보이다. 이러한 특이정보를 처리하는 것만으로도 가명정보에 대한 재식별 위험을 낮출 수 있지만, 특이정보의 판단은 전문가의 경험 또는 지식 등을 활용하여 주관적으로 탐지하고 처리되는 경우가 많다. 정성적으로 전문가의 판단으로 탐지되기 때문에 사람의 실수로 인해 특이정보를 일부 보지 못하는 휴먼 에러 등과 같은 문제가 발생할 수 있다. 또한, 병명이나 의약품 코드 등 일반인이 알아보기 어려운 정보들이 많아 전문가의 도움이 필수적으로 요구되는 의료 분야와 같은 특정 분야에서는 전문가의 도움을 받을 수 없는 경우 데이터 재식별 위험에 그대로 노출될 가능성이 매우 높다.

일반적인 데이터 유형은 크게 범주형 데이터와 수치형 데이터로 구분된다. 범주형 데이터는 성별, 혈액형, 학력 등과 같이 카테고리로 분류되는 데이터로 주로 문자 형태로 구성되며, 수치형 데이터는 나이, 몸무게, 급여 등 숫자형태로 구성된 데이터를 의미한다. 범주형 데이터는 도수분포표, 히스토그램 등을 통해 빈도수를 분석하여 특이정보를 판단하고, 수치형 데이터는 통계 분야의 이상치 탐지 기법을 활용하여 비정상적으로 분포를 벗어난 최소값 또는 최대값을 판단한다.

그러나 수치형 데이터의 이상치 탐지 방법은 일반적인 통계 또는 인공지능 학습용 데이터에 대한 이상치를 탐지하는데 적합하지만, 최소값 또는 최대값에 데이터가 밀집될 가능성이 있는 가명정보에서의 특이정보 판단에는 적합하지 않다. 또한, 2차원 테이블 형태로 표현되는 가명정보에서 위와 같은 이상치 탐지기법을 그대로 적용하게 되면 행 삭제, 로컬삭제, 값 대체 등 특이정보 처리 시 무분별한 데이터 가공으로 인해 데이터 분석에 어려움이 발생할 수 있다. 일반적인 인공지능 학습용 또는 통계용 자료와는 다르게 가명정보에서는 전체 데이터에 대해 특이정보 여부를 먼저 탐지하고 이를 행 단위로 판단하여 특이정보에 대해 유연하게 처리할 필요가 있다.

본 발명이 해결하고자 하는 기술적 과제는 전문가의 개입을 없애거나 최소화하면서 데이터 재식별 가능성 감소를 위한 데이터의 특이정보를 처리할 수 있는 데이터 처리 방법을 제공하는 것이다.

상기한 기술적 과제를 해결하기 위한 본 발명에 따른 컴퓨터에서 구현되는 데이터 재식별 가능성 감소를 위한 데이터 처리 방법은, 처리대상 데이터셋의 칼럼(column)별로 범주별 빈도수를 구하는 단계, 상기 범주별 빈도수가 미리 정해진 특이정보 임계값보다 작은 범주를 특이정보로 판단하는 단계, 상기 처리대상 데이터셋의 각 행(row)별로 특이정보 건수를 구하는 단계 - 상기 특이정보 건수는 해당 행에서 특이정보로 판단된 데이터 값의 개수임 -, 및 상기 각 행별로 구해진 특이정보 건수에 따라 상기 각 행별로 특이정보 처리 기법을 결정하는 단계를 포함한다.

상기 특이정보 처리 기법은, 값 대체, 로컬 삭제 및 행 삭제 중 하나 이상을 포함할 수 있다.

상기 값 대체는 특이정보로 판단된 데이터 값을 미리 정해진 다른 값으로 치환하는 것일 수 있다.

상기 로컬 삭제는 특이정보로 판단된 데이터 값을 빈 값(null)으로 삭제하는 것일 수 있다.

상기 행 삭제는 행 전체를 상기 처리대상 데이터셋에서 삭제하는 것일 수 있다.

상기 특이정보 처리 기법은, 특이정보 건수가 α 이상이고 β 미만인 경우 값 대체로 정해지고, 특이정보 건수가 β 이상이고 γ 미만인 경우 로컬 삭제로 정해지며, 특이정보 건수가 γ 이상인 경우 행 삭제로 정해질 수 있다.

여기서 α, β, γ는 양의 정수이며, α<β<γ일 수 있다.

상기 방법은 상기 각 행별로 결정된 특이정보 처리 기법을 추천하는 단계를 더 포함할 수 있다.

상기 방법은 상기 각 행별로 결정된 특이정보 처리 기법에 따라 상기 처리대상 데이터셋을 처리하는 단계를 더 포함할 수 있다.

상기 처리대상 데이터셋의 각 칼럼별로 상기 특이정보 임계값이 정해질 수 있다.

상기한 기술적 과제를 해결하기 위한 본 발명의 실시예는 상기 데이터 처리 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 포함할 수 있다.

상기한 기술적 과제를 해결하기 위한 본 발명의 실시예에 따른 컴퓨팅 장치는, 프로세서; 및 상기 프로세서에 의해 실행 가능한 인스트럭션 또는 프로그램을 저장하는 메모리; 를 포함하고, 상기 인스트럭션 또는 프로그램이 상기 프로세서에 의해 실행되면, 상기 데이터 처리 방법이 실행될 수 있다.

본 발명에 의하면 전문가의 개입을 없애거나 최소화하면서 데이터 재식별 가능성 감소를 위한 데이터의 특이정보를 처리할 수 있는 효과를 가진다.

도 1은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 데이터 재식별 가능성 감소를 위한 데이터 처리 방법을 설명하기 위해 제공되는 흐름도이다.
도 3은 가명처리된 데이터셋의 일 예를 나타낸 것이다.
도 4는 도 3에 예시한 데이터셋의 각 칼럼 중에서 직업 칼럼에 대해서 범주별 빈도수를 구한 예를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 범주별 빈도수에 따라 특이정보를 판단하는 예를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 행별 특이정보 건수를 구한 예를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 특이정보 처리 기법을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 각 행별 특이정보 처리 기법이 정해진 예를 나타낸 도면이다.

그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

본 명세서에서 "컴퓨팅 장치"는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨팅 장치는 데스크 탑 PC, 노트북(Note Book) 컴퓨터, 서버 컴퓨터뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다.

도 1은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 구성을 개략적으로 나타낸 도면이다.

도 1을 참고하면, 컴퓨팅 장치(100)는 메모리(110) 및 프로세서(120)를 포함할 수 있다.

메모리(110)는 적어도 하나 이상의 인스트럭션(Instruction) 및/또는 프로그램을 저장할 수 있다. 또한 메모리(110)는 컴퓨팅 장치(100)에서 데이터 재식별 가능성 감소를 위한 데이터 처리 방법과 관련된 각종 작업에 이용되는 데이터를 저장할 수 있다.

프로세서(120)는 메모리(110)에 저장된 인스트럭션 및/또는 컴퓨터 프로그램을 실행하여 컴퓨팅 장치(100)에서 데이터 재식별 가능성 감소를 위한 데이터 처리 방법을 실행할 수 있다.

도 1에서는 설명의 편의 상 하나의 메모리(110) 및 프로세서(120)를 예시하였으나, 컴퓨팅 장치(100)에 따라 하나 이상의 메모리(110) 및 하나 이상의 프로세서(120)를 포함할 수 있다.

도 2는 본 발명의 일 실시예에 따른 데이터 재식별 가능성 감소를 위한 데이터 처리 방법을 설명하기 위해 제공되는 흐름도이다.

도 1 및 도 2를 참고하면, 먼저 컴퓨팅 장치(100)는 처리대상 데이터셋의 칼럼별로 범주별 빈도수를 구하는 작업을 수행할 수 있다(S210).

여기서 처리대상 데이터셋은 성명·전화번호 등 개인을 식별할 수 있는 정보를 삭제하거나 대체(가명처리)하는 등의 방법으로 식별 가능성을 낮춘 개인정보로 이루어진 가명처리된 데이터셋일 수 있다.

도 3은 가명처리된 데이터셋의 일 예를 나타낸 것이다.

컴퓨팅 장치(100)는 도 3에 예시한 것과 같은 처리대상 데이터셋의 연령대, 성별, 주거지역, 직업, 연락처, 회원등급 등의 각 칼럼에 대해서 범주별 빈도수를 집계할 수 있다.

도 4는 도 3에 예시한 데이터셋의 각 칼럼 중에서 직업 칼럼에 대해서 범주별 빈도수를 구한 예를 나타낸 것이다.

구체적으로 도 4는, 도 3에 예시한 데이터셋의 '직업' 칼럼에 대해서 '가수'의 빈도수가 '11', '소방관'의 빈도수가 '45', …, '엔지니어'의 빈도수가 '4268', '영업사원'의 빈도수가 '16201'로 집계된 예를 나타내고 있다.

이후 컴퓨팅 장치(100)는 범주별 빈도수가 미리 정해진 특이정보 임계값보다 작은 범주를 특이정보로 판단할 수 있다(S220).

도 5는 본 발명의 일 실시예에 따른 범주별 빈도수에 따라 특이정보를 판단하는 예를 나타낸 것이다.

도 5를 참고하면, 예를 들어 '직업' 칼럼에서 '가수'의 빈도수가 '11', '소방관'의 빈도수가 '45'로 특이정보 임계값 '50' 보다 작으므로, '직업' 칼럼에서 '가수'와 '소방관'을 특이정보로 판단할 수 있다.

특이정보 임계값은 단계(S220) 이전에 사용자로부터 미리 설정되거나, 미리 정해진 디폴트 값이 이용될 수 있다. 또한 특이정보 임계값은 처리대상 데이터셋의 각 칼럼별로 각각 설정되는 것도 가능하다.

다음으로 컴퓨팅 장치(100)는 처리대상 데이터셋의 각 행(row)별로 특이정보 건수를 구할 수 있다(S230). 구체적으로 단계(S230)에서 각 행별로 구해지는 특이정보 건수는 해당 행에서 특이정보로 판단된 데이터 값의 개수이다.

도 6은 본 발명의 일 실시예에 따른 행별 특이정보 건수를 구한 예를 나타낸 도면이다.

도 6에서 'Outlier'는 특이정보로 판단된 데이터값을 나타낸다. 예를 들어 도 3 및 도 4에서 예시한 경우에서, '직업' 칼럼에서 '가수'와 '소방관'에 해당하는 데이터 값은 특이정보로 판단된 경우이므로, 도 6에서와 같이 'Outlier'에 해당한다.

도 6에서 가장 오른쪽 칼럼의 '특이정보 건수'는 각 행에 대해서 집계된 특이정보 건수를 나타낸다. 예를 들어 Index 4에 해당하는 행을 살펴보면, 칼럼 3에 'Outlier'가 1개 있으므로, 특이정보 건수는 '1'이 된다.

다음으로 컴퓨팅 장치(100)는 각 행별로 구해진 특이정보 건수에 따라 각 행별로 특이정보 처리 기법을 결정할 수 있다(S240).

특이정보 처리 기법은 값 대체, 로컬 삭제 및 행 삭제 등이 있을 수 있다. 여기서 값 대체는 특이정보로 판단된 데이터 값을 미리 정해진 다른 값으로 치환하는 것을 의미한다. 로컬 삭제는 특이정보로 판단된 데이터 값을 빈 값(null)으로 삭제하는 것을 의미한다. 행 삭제는 행 전체를 처리대상 데이터셋에서 삭제하는 것을 의미한다.

컴퓨팅 장치(100)는 행별로 구해진 특이정보 건수를 변수값 α, β, γ와 비교하여 특이정보 처리 기법을 결정할 수 있다.

도 7은 본 발명의 일 실시예에 따른 특이정보 처리 기법을 설명하기 위한 도면이다.

도 7에 예시한 것과 같이, 해당 행에 대해서 구해진 특이정보 건수가 α 미만이면 아무 처리도 하지 않을 수 있다. 그리고 해당 행에 대해서 구해진 특이정보 건수가 α 이상이고 β 미만인 경우, 특이정보 처리 기법이 값 대체로 정해질 수 있다. 한편 해당 행에 대해서 구해진 특이정보 건수가 β 이상이고 γ 미만인 경우 로컬 삭제로 정해질 수 있으며, 특이정보 건수가 γ 이상인 경우 행 삭제로 정해질 수 있다. 여기서 α, β, γ는 양의 정수이며, α<β<γ일 수 있다.

도 8은 본 발명의 일 실시예에 따른 각 행별 특이정보 처리 기법이 정해진 예를 나타낸 도면이다.

도 8에서는 α=1, β=2, γ=3으로 설정된 경우, 앞서 도 6에서 각 행별로 구해진 특이정보 건수에 따라 처리 기법이 정해진 결과를 나타내고 있다. 예를 들어 Index 4에 해당하는 행은 특이정보 건수가 '1'이므로, 처리 기법으로 '값 대체'가 선택된 것을 볼 수 있다. 그리고, Index 4에 해당하는 행은 특이정보 건수가 '4'로 γ=3보다 크기 때문에, 처리 기법이 '행 삭제'로 선택된 것을 볼 수 있다.

다시 도 2를 참고하면, 컴퓨팅 장치(100)는 앞서 각 행별로 결정된 특이정보 처리 기법을 컴퓨터 화면에 표시하는 방식 등으로 사용자에게 추천할 수 있다(S250).

단계(S250)에서 컴퓨팅 장치(100)가 각 행별로 추천된 특이정보 처리 기법에 따라 처리대상 데이터셋을 처리할지를 사용자에게 확인받도록 구현하는 것도 가능하다. 그리고 특이정보 처리 기법이 값 대체인 경우, 대체할 값을 사용자로부터 선택받거나, 또는 대체할 값을 결정할 기준을 사용자로부터 선택받도록 컴퓨팅 장치(100)를 구현할 수도 있다. 가령, 해당 칼럼에서 가장 빈도수가 많은 범주로 특이정보를 대체하는 방식과 특이정보는 아니면서 가장 빈도수가 적은 범주로 특이정보를 대체하는 방식 중 하나를 선택받도록 구현하는 것도 가능하다. 물론 여기서 예시한 값 대체 방법 외에도 다른 방법을 제시하고 사용자로부터 선택받도록 구현하는 것도 가능하다. 또한 미리 정해진 기준에 따라 컴퓨팅 장치(100)가 특이정보를 대체할 데이터 값을 결정하고, 그에 따라 특이정보를 대체하도록 구현하는 것도 가능하다.

마지막으로 컴퓨팅 장치(100)는 각 행별로 결정된 특이정보 처리 기법에 따라 처리대상 데이터셋을 처리할 수 있다(S260).

실시예에 따라서 단계(S250)는 생략될 수도 있다. 이 경우 컴퓨팅 장치(100)는 단계(S240)에서 각 행별로 결정된 특이정보 처리 기법에 따라 자동으로 처리대상 데이터셋을 처리할 수도 있다.

물론 실시예에 따라서 각 행별로 결정된 특이정보 처리 기법을 추천하는 단계(S250)까지 수행하고, 특이정보 처리 기법에 따라 처리대상 데이터셋을 처리하는 단계(S260)는 생략하는 것도 가능하다.

한편 수치형 데이터의 경우에는 각각의 데이터 값을 하나의 범주로 간주하고, 위에서 설명한 방법을 적용할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 인스트럭션(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨팅 장치 또는 특수 목적 컴퓨팅 장치를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 인스트럭션(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims

프로세서; 및 상기 프로세서에 의해 실행 가능한 인스트럭션 또는 프로그램을 저장하는 메모리; 를 포함하는 컴퓨팅 장치에서 구현되는 데이터 재식별 가능성 감소를 위한 데이터 처리 방법에서,
상기 컴퓨팅 장치가 처리대상 데이터셋의 칼럼(column)별로 범주별 빈도수를 구하는 단계,
상기 컴퓨팅 장치가 상기 범주별 빈도수가 미리 정해진 특이정보 임계값보다 작은 범주를 특이정보로 판단하는 단계,
상기 컴퓨팅 장치가 상기 처리대상 데이터셋의 각 행(row)별로 특이정보 건수를 구하는 단계 - 상기 특이정보 건수는 해당 행에서 특이정보로 판단된 데이터 값의 개수임 -,
상기 컴퓨팅 장치가 상기 각 행별로 구해진 특이정보 건수에 따라 상기 각 행별로 특이정보 처리 기법을 결정하는 단계, 및
상기 컴퓨팅 장치가 상기 각 행별로 결정된 특이정보 처리 기법에 따라 상기 처리대상 데이터셋의 각 행을 처리하는 단계
를 포함하는 것을 특징으로 하는 데이터 처리 방법.
제 1 항에서,
상기 특이정보 처리 기법은,
값 대체, 로컬 삭제 및 행 삭제 중 하나 이상을 포함하고,
상기 값 대체는 특이정보로 판단된 데이터 값을 미리 정해진 다른 값으로 치환하는 것이고,
상기 로컬 삭제는 특이정보로 판단된 데이터 값을 빈 값(null)으로 삭제하는 것이며,
상기 행 삭제는 행 전체를 상기 처리대상 데이터셋에서 삭제하는 것인 것을 특징으로 하는 데이터 처리 방법.
제 2 항에서,
상기 각 행별로 결정되는 특이정보 처리 기법은,
특이정보 건수가 α 이상이고 β 미만인 행의 경우 값 대체로 정해지고,
특이정보 건수가 β 이상이고 γ 미만인 행의 경우 로컬 삭제로 정해지며,
특이정보 건수가 γ 이상인 행의 경우 행 삭제로 정해지고,
여기서 α, β, γ는 양의 정수이며, α<β<γ인 것을 특징으로 하는 데이터 처리 방법.
제 3 항에서,
상기 컴퓨팅 장치가 상기 각 행별로 결정된 특이정보 처리 기법을 상기 컴퓨팅 장치의 화면에 표시하여 추천하는 단계
를 더 포함하는 것을 특징으로 하는 데이터 처리 방법.
삭제
제 1 항에서,
상기 처리대상 데이터셋의 각 칼럼별로 상기 특이정보 임계값이 정해지는 것을 특징으로 하는 데이터 처리 방법.
제 1 항 내지 제 4 항 및 제 6 항 중 어느 한 항의 데이터 처리 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
컴퓨팅 장치로서,
프로세서; 및
상기 프로세서에 의해 실행 가능한 인스트럭션 또는 프로그램을 저장하는 메모리; 를 포함하고,
상기 인스트럭션 또는 프로그램이 상기 프로세서에 의해 실행되면, 제 1 항 내지 제 4 항 및 제 6 항 중 어느 한 항의 데이터 처리 방법이 실행되는 컴퓨팅 장치.