KR102557800B1

KR102557800B1 - 차분 프라이버시 기반 의사결정 트리 생성 방법 및 장치

Info

Publication number: KR102557800B1
Application number: KR1020220176308A
Authority: KR
Inventors: 정연돈; 백인철
Original assignee: 고려대학교 산학협력단
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-07-19

Abstract

차분 프라이버시 기반 의사결정 트리 생성 방법 및 장치가 개시된다. 상기 차분 프라이버시 기반 의사결정 트리 생성 방법은 적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되고, 데이터의 특징들 각각에 대한 히스토그램(histogram)을 생성하는 단계, 및 상기 히스토그램을 이용하여 DP-EBM(Differentially Private Explainable Boosting Machine) 모델을 학습하는 단계를 포함하고, 상기 DP-EBM 모델을 학습하는 단계는, 특징들 각각이 정답예측에 기여하는 정도인 특징 스코어와 노이즈가 정답예측에 기여하는 정도인 노이즈 스코어를 산출하는 단계, 상기 특징 스코어와 상기 노이즈 스코어에 기초하여 특징 가지치기(feature pruning)를 수행하는 단계, 및 가지치기된 특징에 할당된 프라이버시 예산(privacy budgets)을 재할당하는 단계를 포함한다.

Description

차분 프라이버시 기반 의사결정 트리 생성 방법 및 장치{DEVICE AND METHOD FOR CONSTRUCTING DIFFERENTIALLY PRIVATE DECISION TREES}

본 발명은 데이터 프라이버시에 관한 것으로, 특히 관계형 데이터에 포함되어 있는 개인의 프라이버시를 보호하면서 데이터로부터 차분 프라이버시 기반 설명가능한 부스팅 머신(Differentially private explainable boosting machine, DP-EBM)을 높은 프라이버시 보호 수준에서 훈련하는 방법 및 장치에 관한 것이다.

기계학습(machine learning) 기술의 성능이 향상됨에 따라, 기계학습 모델을 이용하여 결정(decision)을 수행하거나 지식을 추출하고자 하는 도메인 전문가들(domain experts)이 증가하고 있다. 그러나, 도메인 전문가들은 기계학습 모델이 왜 그러한 출력을 제공하는지에 대하여는 알지 못한다. 이는, 블랙박스 모델(black-box model)이라 불리는 모델이 결과에 대한 어떠한 설명도 제공하지 않기 때문이고, 이는 도메인 전문가들이 결정을 내리는 것을 어렵게 만든다. 결과적으로, 잘못된 결정은 헬스케어 분야에서의 의료 과실(medical malpractice)이나 금융 분야에서의 금전적인 손실(monetary loss)과 같은 참사를 야기할 수 있다.

반면에, 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 및 EBM(explainable boosting machine)과 같은 글라스박스(glass-box) 모델은 모델 출력에 대한 해석(interpretation)을 제공한다. 글라스박스 모델은 블랙박스 모델에 비하여 더 정확하지는 않지만, 설명가능성 때문에 질병 진단(disease diagnosis)이나 카드 도용 감지(card fraud detection)와 같은 다양한 응용 분야에서 널리 이용된다.

그럼에도 불구하고, 도메인 전문가들이 기계학습 모델을 해당 필드에 이용하는 데에는 한가지 추가적인 문제점이 있다. 기계학습 모델은 필연적으로 개인 정보가 포함된 데이터를 이용한다. 프라이버시를 보호하면서 민감한 데이터를 분석하기 위해서, 차분 프라이버시(Differential privacy)가 이용될 수 있다. 차분 프라이버시는 알고리즘의 결과를 교란하여(perturbing) 어떠한 데이터가 결과에 영향을 미쳤고 어떠한 데이터가 그렇지 않는지에 대하여 추론할 수 없게 함으로써, 프라이버시를 보호할 수 있다. 예컨대, 기계학습에서, 랜덤 노이즈(random noises)가 학습 알고리즘에 주입되고, 이는 개인 정보가 모델 내에 반영되는 것을 방지한다. 랜덤 노이즈는 학습 프로세스를 방해하기 때문에, 차분 프라이버시 모델은 일반적으로 낮은 정확도를 보인다.

차분 프라이버시 글라스박스 모델은 도메인 전문가들이 프라이버시를 보호하면서 개인 정보를 이용할 수 있도록 한다. 선형 회귀, 로지스틱 회귀, 및 EBM과 같은 선행 연구들은 랜덤 노이즈에 의한 정확도 손실(accuracy loss)을 감소시키는 방향으로 연구되었다. 본 발명에서는 DP-EBM에 관한 것이다. DP-EBM은 결정 트리들(decision trees)로 구성된다. 그리고 각 트리는 다차원 데이터(multi-dimensional data)의 단일의 특징(feature, 실시예에 따라 특질로 명명될 수 있음)만을 고려하고 그래디언트 부스팅 학습 알고리즘(gradient boosting learning algorithm)에 의해 학습된다. 상반적으로, SGBoost와 Light-GBM과 같은 다른 GBDTs(gradient boosted decision trees)는 데이터 특징의 복잡한 결합(complex combinations)을 고려한다.

그러나, 높은 프라이버시 보호 수준에서, DP-EBM은 프라이버시 예산(privacy budget)이라 불리는 제한된 리소스를 이용하는 문제점이 있다. 프라이버시 예산, 즉 활용 가능한 프라이버시의 총량(total amount of privacy available)은 보호될 프라이버시의 양에 따라 주어지고, 프라이버시가 강력하게 보호되어야 할 때 덜 주어진다. DP-EBM의 학습 알고리즘은 각 이터레이션(iteration)에서 프라이버시 비용(privacy cost)을 지출하고, 더 많은 프라이버시 비용이 사용되면 더 적은 랜덤 노이즈가 주입된다. 총 사용 프라이버시 비용(total spent privacy cost)은 프라이버시 예산으로 제한된다.

본 발명에서는 학습 과정 동안에 불필요한 특징들을 가지치기함으로써 높은 프라이버시 보호 수준에서 효율적으로 프라이버시 비용을 소비할 수 있는 특징 가지치기(feature pruning) 기능을 갖는 DP-EBM(DP-EBM-FP)을 제안한다.

또한, 본 발명에서는 DP-EBM에서 특징 중요도를 측정하는 방법을 제안한다.

특징 중요도의 측정은 랜덤 노이즈의 종류에 의존하기 때문에, 본 발명에서는 DP-EBM-FP를 두 가지의 케이스(랜덤 노이즈가 라플라스 노이즈인 경우와 가우시안 노이즈인 경우)로 나누어 분석한다.

대한민국 공개특허 제2022-0083489호 (2022.06.20. 공개) 대한민국 등록특허 제2054450호 (2019.12.10. 공고) 대한민국 공개특허 제2022-0003380호 (2022.01.10. 공개)

Accuracy, Interpretability, and Differential Privacy via Explainable Boosting, ICML, 2021(https://icml.cc/virtual/2021/spotlight/9576)

본 발명이 이루고자 하는 기술적인 과제는 특징 가지치기를 이용하여 효율적으로 프라이버시 예산을 사용할 수 있는 차분 프라이버시 기반 의사결정 트리 생성 장치 및 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 차분 프라이버시 기반 의사결정 트리 생성 방법은 적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되고, 데이터의 특징들 각각에 대한 히스토그램(histogram)을 생성하는 단계, 및 상기 히스토그램을 이용하여 DP-EBM(Differentially Private Explainable Boosting Machine) 모델을 학습하는 단계를 포함하고, 상기 DP-EBM 모델을 학습하는 단계는, 특징들 각각이 정답예측에 기여하는 정도인 특징 스코어와 노이즈가 정답예측에 기여하는 정도인 노이즈 스코어를 산출하는 단계, 상기 특징 스코어와 상기 노이즈 스코어에 기초하여 특징 가지치기(feature pruning)를 수행하는 단계, 및 가지치기된 특징에 할당된 프라이버시 예산(privacy budgets)을 재할당하는 단계를 포함한다.

본 발명의 실시예에 따른 차분 프라이버시 기반 의사결정 트리 생성 장치 및 방법에 의할 경우, 개인의 프라이버시를 높은 수준으로 보호하면서 높은 정확도를 제공하는 DP-EBM 모델을 훈련시킬 수 있다.

또한, 높은 수준의 프라이버시와 정확도를 제공함으로서 프라이버시 위험도가 높은 데이터에 대해서도 활용 범위가 넓어질 수 있다.

또한, 프라이버시를 보호하면서 높은 정확도를 보이는 동시에 결과에 대한 해석이 가능하여 전문가가 활용할 수 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 트리 구축을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 의사결정 트리 생성 장치 및 방법의 전체적인 진행과정을 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 의사결정 트리 생성 방법을 설명하기 위한 흐름도이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시예들을 상세히 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

우선, 관련된 용어와 정의에 대해 설명한다.

Differential Privacy

Definition 1 (-Differential Privacy). 를 랜덤화된 메커니즘(randomized mechanism)이라 하자.

차이를 갖는 오직 하나의 행(row)을 갖는 임의의 인접 데이터베이스(neighboing databases) 와 출력의 서브셋 에 대하여 수학식 1을 만족한다면, 은 -차분 프라이버시를 보장한다.

[수학식 1]

두 개의 프라이버시 파라미터들 는 프라이버시 보호의 수준을 나타낸다. 프라이버시 예산 이 작을수록, 고정된 에 대하여 메커니즘 은 더 강한 프라이버시 보호를 제공한다. 여기서, 는 메커니즘 이 , 다시 말하면 를 제공하지 못할 확률을 의미한다. 쿼리 함수(query function)에 라플라스 메커니즘(Laplace mechanism)을 적용하는 것은 를 보장하는 간단한 방법이다.

Theorem 1 (Laplace Mechanism). 데이터베이스로부터 실수(real numbers)로 맵핑하는 쿼리 함수 에 대하여, 라플라스 메커니즘은 수학식 2와 같이 정의된다.

[수학식 2]

수학식 2에서, 는 주어진 쿼리 함수에 대한 -민감도(-sensitivity)이고, 은 로부터의 랜덤 변수(random variables)이다. 라플라스 메커니즘은 -차분 프라이버시(-differential privacy)를 보장한다.

라플라스 메커니즘은 노이즈를 쿼리 함수의 결과에 부가함으로써 쿼리 함수가 가 되도록 한다. 는 쿼리 함수의 민감도를 캘리브레이션함으로써 주어진다.

Definition 2 (-Sensitivity). 쿼리 함수와 어떠한 두 개의 인접 데이터베이스 에 대하여, -민감도는 수학식 3과 같이 정의된다.

[수학식 3]

민감도는 하나의 레코드가 결과에 영향을 줄 수 있는 최대 크기(maximum extent)를 암시한다. 멀티플 메커니즘이 요구될 때, 총 사용 프라이버시 비용은 다음과 같이 계산될 수 있다.

Theorem 2 (Composition theorem for ). 을 메커니즘의 순차적인 구성(sequential composition)으로, 각 를 -차분 프라이버시 메커니즘(-differentially private mechanism)이라 하면, 메커니즘 은 -차분 프라이버시(-differential privacy)를 보장한다.

반면에, 가우시안 랜덤 변수로부터의 노이즈를 갖는 가우시안 메커니즘은 오직 에 대한 , 즉 의 완화 버전(relaxation version)을 보장한다. 그러나, 가우시안 메커니즘의 순차적인 구성이 요구될 때, 는 셋팅 내에서 과대평가된다. 보다, -가우시안 차분 프라이버시(-Gaussian differential privacy, )가 에 대한 보다 타이트한 경계(more tighter bound)를 제공한다.

Theorem 3 (-Gaussian Differential Privacy). 데이터베이스 에 대한 쿼리 함수 , 민감도 , 및 로 정의되는 가우시안 메커니즘에 대하여(여기서, 은 가우시안 분포 로부터 샘플링됨), 은 -가우시안 차분 프라이버시이다.

Theorem 4 (Composition Theorem for -GDP). 각 을 메커니즘이라 하자. 메커니즘의 구성은 이다.

는 의 다른 표현이기 때문에, 다음과 같이 로 변환될 수 있다.

Theorem 5 (Conversion into ). "메커니즘은 이다"와 "모든 에 대하여 메커니즘은 이다"는 필요충분조건이다. 여기서 는 수학식 4와 같다.

[수학식 4]

수학식 4에서, 는 표준 정규 분포(standard normal distribution)의 CDF이다.

DP-EBM

DP-EBM은 GAMs(Generalized additive models)의 한 중류인 EBM의 차분 프라이버시 버전이다. GAMs은 단변량 함수들(univariate functions)과 상수(constant)의 합으로 표현된다. GAMs의 형식은 수학식 5와 같다.

[수학식 5]

함수 g는 모델이 회귀(regression)인지 또는 분류(classification)인지를 결정하는 링크 함수(link function)이다. 는 절편(intercept)이고 는 데이터의 i-번째 특징을 취하는(takes) 형상 함수(shape function)이다. 형상 함수는 오직 하나의 입력만을 취하기 때문에, GAMs는 특징과 특징 값이 결과에 미치는 영향에 대한 해석능력(interpretability)을 가질 수 있다.

DP-EBM에서, 각 형상 함수는 학습 과정 동안에 형상 함수에 대응하는 오직 하나의 특징만을 이용하는 GBDTs로 구성된다. GBDTs를 GAM에 적용하는 것은 Y. Lou 등의 논문(Y. Lou, R. Caruana, J. Gehrke, Intelligible models for classification and regression, in: Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, 2012, pp. 150-158.)에서 제안되었고, Y. Lou 등의 논문(Y. Lou, R. Caruana, J. Gehrke, G. Hooker, Accurate intelligible models with pairwise interactions, in: Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining, 2013, pp. 623-631.)에서 형상 함수를 2-변량 함수(two-variate function)로 확장되었다. EBM은 위 두번째 논문의 fast-implementation이다.

DP-EBM의 알고리즘을 소개한다. DP-EBM을 학습하기 위한 수도 코드(pseudo code)는 알고리즘 1에 도시되어 있다.

[알고리즘 1]

전처리 단계(pre-processing step)에서, DP-EBM은 각 특징에 대한 차분 프라이버시 히스토그램들(differentially private histograms)을 구축하고(Line 2), 형상 함수를 초기화하고(Line 3), 그리고 레지듀얼들(residuals)을 초기화한다(Line 7). 이후, DP-EBM은 순환 부스팅(cyclic boosting)을 이용하여 각 특징에 대한 에포크(epochs)의 개수만큰의 쉘로우 트리들(shallow trees)을 구축한다. 트리 내의 중간 노드들(intermediate nodes)은 데이터를 빈들의 그룹들(groups of bins)로 분할하고, 각 분할된 그룹은 예측을 수행하는 리프 노드(leaf node)에 속한다. 다른 GBDTs는 최선의 분할들(best splits)을 선택하지만, DP-EBM은 프라이버시 때문에 랜덤한 분할을 선택한다(Line 13). 리프 노드가 생성됨에 따라, 리프 노드 내의 노이즈 레지듀얼들(noisy residuals)의 평균이 계산된다(Line 17). 그러면 형상 함수는 업데이트된다(Line 19). 형상 함수들은 빈(bin)의 인덱스(index)를 입력으로 받고 대응되는 값을 반환한다(도 1 참조). 다시 말하면, 형상 함수는 룩업 테이블(lookup table)과 같이 동작한다. 쉘로우 트리(위크 프리딕터(weak predictor))는 레디듀얼들을 업데이트된 형상 함수로 업데이트한 후에 레지듀얼들을 감소시킬 것으로 예상된다(Line 24). DP-EBM은 링크 함수 g가 로짓 함수(logit function)일 때 분류 태스크(classification tasks)를, g가 아이덴티디 함수(identity function)일 때 회귀 태스크(regression tasks)를 다룬다.

프라이버시와 관하여, 프라이버시 비용(privacy cost)은 각 쉘로우 트리가 대응하는 형상 함수를 업데이트할 때마다 사용된다. 각 이터레이션(Line 13 ~ Line 25)은 이고, 전체 프로세스 빌딩 트리(total process building trees, Line 11 ~ Line 28)는 이다. 추가적으로, 설명의 편의를 위해, 프라이버시 예산(privacy budgets)을 계산할 때 히스토그램을 위한 두 프라이버시 파라미터들 은 고려하지 않는다.

i-번째 데이터를 로, i-번째 데이터의 k-번째 특징을 로 표기한다. 는 에포크 t에서 i-번째 데이터의 레지듀얼을 나타낸다. 또한, k-번째 특징에 대한 히스토그램을 나타내기 위해 를 이용한다. 함수는 가 속하는 빈(bin)의 인덱스를 반환한다.

Methodology

기존의 DP-EBM은 높은 프라이버시 보호 수준에서 프라이버시 예산을 낭비한다. 이러한 문제점을 해결하기 위해, 본 발명에서는 특징 가지치기(pruning)를 수행하는 DP-EBM, 즉 DP-EBM-FP를 제안한다. DP-EBM-FP는 높은 프라이버시 보호 수준에서도 효율적으로 학습될 수 있다.

DP-EBM with Laplace noise

가우시안 노이즈가 레지듀얼들의 합에 더해지기 때문에, 기존의 DP-EBM은 이다. 가우시안 노이즈 대신에, 라플라스 노이즈를 레지듀얼들의 합에 부가할 수 있다. 따라서, 전체 이터레이션들은 이고, 각 이터레이션은 -DP이다.

Theorem 6. 라플라스 변수 가 레지듀얼들의 합에 가해지는 DP-EBM은 -차분 프라이버시를 보장한다.

DP-EBM-FP

DP-EBM은 를 로 나눔으로써 프라이버시 예산을 위크 프리딕터들에게 균등하게 할당한다. 그러나, 학습 과정이 진행됨에 따라 전체 레지듀얼들은 감소하고, 어떤 특징들은 학습에 불필요하다. 게다가, 높은 프라이버시 보호 수준에서 큰 노이즈(large noise)는 레지듀얼들의 합을 압도할(overwhelm) 수 있다. 따라서, 필수적인 특징들에는 더 많은 프라이버시 예산이 할당되어야 한다. 이를 위해, DP-EBM-FP는 특징과 노이즈의 영향을 스코어로 측정하고, 노이즈의 영향보다 더 작은 영향을 갖는 특징들을 가지치기할 수 있다. 결과적으로, 가지치기된 특징들은 학습 과정에 더이상 참여하지 않고, DP-EBM-FP는 절약된 프라이버시 예산을 학습될 잔존 특징들(remaining features)에게 재할당할 수 있다. 본 명세서에서, 이러한 잔존 특징들을 후보 특징들(candidate features)로 명명한다.

DP-EBM-FP를 위한 학습 알고리즘은 알고리즘 2에 도시되어 있다. DP-EBM-FP의 알고리즘은 DP-EBM의 알고리즘과 많이 다르지 않다. 알고리즘 2는, 특징 가지치기 파라미터 를 제외하고, 입력을 알고리즘 1과 공유한다. 초기화(Line 1 ~ Line 15) 이후에, DP-EBM과는 다르게, 오직 후보 특징들만이 학습 과정에 참여한다(Line 17). 레디듀얼들의 합에 더해지는 노이즈 는 라플라스 노이즈이거나 가우시안 노이즈이다(Line 21). 리프 노드들을 분할하는 방법, 형상 함수들과 레지듀얼들의 업데이팅은 DP-EBM과 기본적으로 동일하다(Line 17 ~ Line 32). 에포크의 말미에, DP-EBM-FP는 특징 스코어와 노이즈 스코어를 측정한다. 노이즈 보다 더 작은 스코어를 갖는 특징들은 후보 특징들 집합에서 제거된다(Line 34 ~ Line 36). 마지막으로, 제안 알고리즘은 잔여 프라이버시 예산을 계산하고 재할당한다. 그런 다음 다음 에포크를 시작한다.

[알고리즘 2]

본 발명에서, 특징 스코어를 의 가중 평균(weighted mean)으로 정의한다.

Definition 3 (L_n-score). 에포크 t, 특징 k에 대하여, 를 리프 노드들의 개수, 을 리프 노드의 인덱스, 를 리프 노드에서 데이터의 개수, 를 리프 노드의 레지듀얼들의 노이즈 평균(noisy average)이라 하자. 에포크 t에서 특징 k의 L_n-스코어는 가중치 를 갖는 에 대하여 의 가중 평균으로 정의된다.

[수학식 6]

L_n-스코어는 H. Nori 등의 논문(H. Nori, S. Jenkins, P. Koch, R. Caruana, Interpretml: A unified framework for machine learning interpretability, arXiv preprint arXiv:1909.09223 (2019).) 내의 설명에 기초하고, L₁-스코어와 같다. 특징 스코어는 위크 프리딕터들로부터 용이하게 계산될 수 있으나, 노이즈 스코어는 L_n-스코어에 의해 직접 측정될 수 없다. 에포크 t와 특징 k에서, 노이즈 스코어를 측정하기 위해, 에포크 t와 특징 k에서 레디듀얼들의 합이 모두 제로(zeros)이고 위크 프리딕터와 동일한 분할을 갖는 트리비얼 프리딕터(trivial predictor)를 정의한다. 이제, 노이즈 스코어는 노이즈를 샘플링함으로써 트리비얼 프리딕터의 L_n-스코어로써 측정될 수 있다. 그러나, 노이즈 스코어는 각 샘플링마다 변하기 때문에 문제점이 존재한다. 이를 해결하기 위해, 조정 가능한 파라미터(tunable parameter) 로 노이즈 스코어를 측정하기 위한 방법을 제안한다.

C를 노이즈 스코어의 랜덤 변수라고 하자. 그러면, 특징 가지치기 임계값 와 확률 를 정의할 수 있다. 다시 말하면, 는 노이즈 스코어가 보다 작을 확률이다. 관측된 특징 스코어가 적절히 작은(appropriately small) 로 보다 작다면, 특징은 불필요할 것이다. 특히, 이면, 이다. 따라서, 모든 특징은 가지치기되지 않을 것이다. 그리고, 이면, 이다. 따라서, 모든 특징은 첫번째 에포크에서 가지치기될 것이다.

DP-EBM-LFP

DP-EBM-LFP는 라플라스 노이즈를 레지듀얼들의 합에 부가하고 특징 가지치기를 위한 L₁-스코어를 계산한다. 특징의 L₁-스코어는 수학식 7과 같다.

[수학식 7]

수학식 7에서, 는 에포크 t에서 특징 k의 L₁-스코어, 는 레지듀얼들의 노이즈 합, 는 레지듀얼들의 합, 그리고 는 라플라스 노이즈이다. 노이즈 스코어를 위해, 트리비얼 프리딕터는 제로 레지듀얼들을 갖는다. 따라서 는 라플라스 분포를 따른다.

[수학식 8]

따라서, 에포크 t에서 특징 k의 노이즈 스코어 는 앱솔루트 라플라스 랜덤 변수(absolute Laplace random variable)의 합으로 표현된다. 노이즈 스코어 는 감마 분포(gamma distribution)을 따름을 알 수 있다.

Theorem 7. 를 에포크 t에서 각 트리에 할당된 프라이버시 예산, 를 DP-EBM-LFP에서 트리비얼 프리딕터의 L₁-스코어의 랜덤 변수라고 하자. 는 쉐이프(shape) 와 스케일(scale) 에 의해 파라미터화된(parameterized) 감마 분포를 따른다.

[수학식 9]

Proof. 수학식 8에서, Z는 라플라스 분포 를 따르고 |Z|는 감마 분포 를 따른다. 이고 는 i.i.d.이기 때문에, 는 스칼라(scalar)에 의해 나눠진 i.i.d. 감마 랜던 변수의 합이다. 따라서, 는 과 동치이다(equivalent).

가 주어지면, 노이즈 스코어는 할당된 프라이버시 예산 , 리프 노드들의 개수 , 및 전체 데이터 N에 의해 영향을 받는다. 그러나, 특징 스코어와 임계값을 비교할 때, N은 특징 가지치기에 영향을 주지 않는다. 두 가지 모두 N에 의해 나줘지기 깨문이다. 이제, theorem 7의 CDF로부터 를 계산할 수 있고, 이다. 구체적인 구현에서, 는 다음 lemma로 솔버(solver)에 의해 찾을 수 있다.

Lemma 8. DP-EBM-LFP에서, 임의의 양(positive)의 에 대하여, 다음 부등식(inequality)이 성립된다.

[수학식 10]

특징 가지치기 임계값 를 계산하는 방법을 설명하였다. 의 의미를 분석한다. 다음 lemma와 corollary는 와 에 타당성을 부여한다.

Lemma 9. 를 라플라스 랜덤 변수라 하자. 임의의 와 임의의 레지듀얼들의 합 에 대하여, 다음 부등식이 성립된다.

[수학식 11]

Proof. 이 증명에서는, 설명의 편의를 위해, l, k, 및 t를 생략한다. 에 대하여, 수학식 12가 성립함을 알 수 있다.

[수학식 12]

임의의 T와 에 대하여, Z가 대칭성을 갖기 때문에(symmetric), 수학식 13이 성립한다.

[수학식 13]

따라서, 수학식 11이 에 대해 성립하면, 에 대해서도 성립한다. 첫번째로, 를 가정한다. 그러면 수학식 14와 수학식 15를 얻을 수 있다.

[수학식 14]

[수학식 15]

수학식 11은 수학식 16과 동치이다.

[수학식 16]

수학식 16에서, 3가지 경우가 존재한다.

i) :

[수학식 17]

ii) :

[수학식 18]

수학식 18로부터, 에 대하여, 두 개의 인테그랄(integral)은 동일한 인터벌 길이와 를 갖는다. 따라서, 수학식 18 > 0이다.

iii) :

[수학식 19]

에 대하여, 이다. 따라서, 수학식 19 > 0이 성립한다.

에 대하여, 용이하게 증명할 수 있다.

Corollary 9.1. 임의의 양의 에 대하여, 다음 부등식이 성립한다.

[수학식 20]

Corollary 9.1은 모든 특징은 확률 에 따라 가지치기 될 수 있음을 의미한다. 는 특징 가지치기 확률의 상한을 나타낸다. 그라디언트가 거의 제로인 불필요한 특징들은 확률 로 가지치기될 것이다. lemma 9의 증명에 따라, 레지듀얼들이 합이 클수록, 더 작은 을 얻는다. 즉, 중요한 특징들은 매우 높은 확률로 가지치기되지 않을 것이다.

에 대하여, 에포크 t에서 각 프리딕터터로 할당된 프라이버시 예산은 수학식 21과 같이 계산될 수 있다.

[수학식 21]

수학식 21에서, 은 후보 특징 집합의 길이이고, E는 전체 에포크들이다. 특징 가지치기와 무관하게, 프라이버시 예산은 에포크들에게 균등하게 할당된다. 그러면, 프라이버시 예산은 후보 특징들로 균등하게 분할된다.

DP-EBM-GFP

DP-EBM-GFP는 가우시안 노이즈를 레지듀얼들의 합에 부가하고 특징 가지치기를 위한 L₂-스코어를 계산한다. 특징의 L₂-스코어는 수학식 22와 같다.

[수학식 22]

수학식 22에서, 는 에포크 t에서 특징 k의 L₂-스코어, 는 레지듀얼들의 노이즈 합(noisy sum), 는 레지듀얼들의 합, 그리고 는 가우시안 노이즈이다. DP-EBM-LFP와 유사하게, 트리비얼 프리딕터의 예에서, L₂-스코어는 수학식 23과 같다.

[수학식 23]

수학식 23에서, 는 에포크 t에서 특징 k의 노이즈 스코어이다. DP-EBM-LFP와 상이하게, 리프 노드 내의 데이터의 개수 는 스코어에 영향을 미친다. 그리고 노이즈 스코어는 스칼라에 의해 나누어진 가우시안 랜덤 변수의 제곱의 합으로 나타난다. 는 감마 분포를 따르지 않지만, 근사적으로(approximately) 감마 분포를 따른다.

Theorem 10. 를 DP-EBM-GFP에서 트리비얼 프리딕터의 L₂-스코어라고 하자. 그러면, 는 근사적으로 쉐이프-스케일 파라미터화(shape-scale parameterization)로 감마 분포를 따른다.

[수학식 24]

노이즈 스코어 가 근사적으로 감마 분포를 따르기 때문에, 다음의 lemma에 따라 근사적인 를 찾을 수 있다.

Lemma 11. DP-EBM-GFP에서, 어떠한 양의 에 대하여, 다음 부등식이 성립한다.

[수학식 25]

가 따르는 진짜 분포를 모르지만, 제타(zeta)의 의미의 일관성(consistency)에 대하여는 문제가 존재하지 않는다.

Lemma 12. 를 가우시안 랜덤 변수라 하자. 임의의 , 임의의 레지듀얼들의 합 , 그리고 리프 노드에서의 데이터의 개수 에 대하여, 다음 부등식이 성립한다.

[수학식 26]

Corollary 12.1. 를 노이즈 스코어의 분포를 따르는 랜덤 변수라 하자. 임의의 양의 에 대하여, 다음 부등식이 성립한다.

[수학식 27]

의 근사화된 분포는 에 주어진 근사화된 를 찾기 위한 도구일 뿐이다.

프라이버시 예산 에 대하여, theorem 5에 의해 를 로 변환할 필요가 있다. 에포크 t에서 각 프리딕터로 할당되는 프라이버시 예산의 제곱 은 수학식 28과 같이 계산될 수 있다.

[수학식 28]

DP-EBM-LFP와 유사하게, 프라이버시 예산의 제곱은 에포크들로 균등하게 할당된다. 그러면, 프라이버시 예산의 제곱은 후보 특징들로 균등하게 분할된다.

도 2는 본 발명의 일 실시예에 따른 의사결정 트리 생성 장치 및 방법의 전체적인 진행과정을 설명하기 위한 개념도이고, 도 3은 본 발명의 일 실시예에 따른 의사결정 트리 생성 방법을 설명하기 위한 흐름도이다. 이하에서, 의사결정 트리 생성 장치 및 방법을 설명함에 있어, 앞선 기재와 중복되는 내용에 관하여는 그 구체적인 기재를 생략하기로 한다.

의사결정 트리 생성 장치는 적어도 프로세서(processor) 및/또는 메모리(memory)를 포함하는 컴퓨팅 장치로 구현될 수 있다. 컴퓨팅 장치는 PC(Personal Computer), 서버(server), 랩탑 컴퓨터, 태블릿 PC 등을 포함할 수 있다. 또한, 의사결정 트리 생성 방법은 컴퓨팅 장치에 의해 수행될 수 있다. 따라서, 의사결정 트리 생성 방법에 포함되는 단계들 중 적어도 일부는 컴퓨팅 장치에 포함되는 프로세서의 동작으로 이해될 수도 있다.

우선, (관계형) 데이터가 수신된다(S110). 데이터는 소정의 유무선 통신망을 통해 수신되거나 소정의 입출력 인터페이스 등을 통해서 수신될 수 있다. 이를 위해 컴퓨팅 장치는 통신을 위한 통신 인터페이스 및/또는 입출력 인터페이스 등을 구비할 수 있다. 실시예에 따라, 데이터는 csv 형식의 파일로 수신되고, 수신된 데이터는 컴퓨팅 장치에 포함된 저장 장치에 저장될 수 있다. 또 다른 실시예에 의하면, 데이터는 미리 수신되어 컴퓨팅 장치에 저장되어 있을 수도 있다.

수신된 데이터에 대한 히스토그램이 생성된다(S120). 히스토그램은 데이터의 각 특징에 대응되는 것으로, 특징들 각각에 대응하는 복수의 히스토그램들이 생성될 수 있다. 여기서, 특징은 데이터의 열(column)을 의미하는 개념으로 이해될 수도 있다.

다음으로, DP-EBM 모델(의사결정 트리 생성 모델로 명명될 수도 있음)에 대한 학습이 수행된다(S130). 이를 통해, 복수 개의 트리를 훈련하여 최종적으로 복수 개의 트리를 예측에 사용할 수 있다. 다시 말하면, DP-EBM 모델의 학습을 진행함으로써 복수 개의 의사결정 트리를 생성할 수 있다. 생성된 복수 개의 의사결정 트리는 의사결정 트리 생성 장치로부터 출력될 수 있다.

DP-EBM의 학습 과정에 대하여 보다 상세하게 설명한다. DP-EBM의 학습 과정은 종래의 학습 과정과 유사하다. 다만, 본 발명에서는 학습 과정에서 프라이버시 예산을 재분배함으로써 높은 프라이버시 보호 수준에서도 보다 정확도가 높은 결정 트리를 생성할 수 있다.

구체적으로, DP-EBM의 학습 도중에 특징들과 노이즈가 정답예측에 기여하는 점수(특징 스코어와 노이즈 스코어)가 산출될 수 있다. 특징 스코어와 노이즈 스코어는 학습 도중에 복수회 산출될 수 있다. 일 예로, 특징 스코어와 노이즈 스코어는, 가장 마지막 에포크를 제외하고, 에포크별(에포크의 말미에)로 산출될 수 있다.

산출된 특징 스코어와 노이즈 스코어를 비교하고, 비교 결과에 따라 소정의 특징들이 가지치기 될 수 있다. 예컨대, 노이즈 스코어 보다 작은 특징 스코어 값을 갖는 특징은 가지치기될 수 있다.

이러한, 특징 가지치기를 통해 가지치기된 특징에 할당된 프라이버시 예산을 남은 특징들에게 재할당함으로써 보다 정확도 높은 결정 트리를 생성할 수 있다. 구체적인 예로, 가지치기된 특징에 할당된 프라이버시 예산은 가지치기되지 않은 특징들(또는 특징들 각각에 대응하는 결정트리)에 (균등하게) 재할당 한 후, 다음 에포크가 수행될 수 있다.

상술한, 스코어 산출, 특징 가지치기, 및 다음 에포크의 실행은 반복적으로 수행될 수 있다.

이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 집합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPA(Field Programmable array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(Operation System, OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(Collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(Embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성 요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

적어도 프로세서를 포함하는 컴퓨팅 장치에 의해 수행되는, 차분 프라이버시 기반 의사결정 트리 생성 방법에 있어서,
데이터의 특징들 각각에 대한 히스토그램(histogram)을 생성하는 단계; 및
상기 히스토그램을 이용하여 DP-EBM(Differentially Private Explainable Boosting Machine) 모델을 학습하는 단계를 포함하고,
상기 DP-EBM 모델을 학습하는 단계는,
특징들 각각이 정답예측에 기여하는 정도인 특징 스코어와 노이즈가 정답예측에 기여하는 정도인 노이즈 스코어를 산출하는 단계;
상기 특징 스코어와 상기 노이즈 스코어에 기초하여 특징 가지치기(feature pruning)를 수행하는 단계; 및
가지치기된 특징에 할당된 프라이버시 예산(privacy budgets)을 재할당하는 단계를 포함하는,
의사결정 트리 생성 방법.
제1항에 있어서,
상기 히스토그램을 생성하는 단계 이전에,
상기 데이터를 수신하는 단계를 더 포함하는,
의사결정 트리 생성 방법.
제1항에 있어서,
상기 노이즈는 라플라스 노이즈 또는 가우시안 노이즈인,
의사결정 트리 생성 방법.
제1항에 있어서,
상기 산출하는 단계, 상기 특징 가지치기를 수행하는 단계, 및 상기 재할당하는 단계는 에포크(epoch)별로 반복 수행되는,
의사결정 트리 생성 방법.
제1항에 있어서,
상기 DP-EBM 모델을 학습하는 단계는,
가지치기된 특징들에 할당된 프라이버시 예산을 가지치기되지 않은 특징들 각각에 재할당한 후 다음 에포크를 수행하는,
의사결정 트리 생성 방법.