KR20160044485A

KR20160044485A - 공모 및 구성을 고려한 유틸리티-인식 프라이버시 보존 맵핑을 위한 방법 및 장치

Info

Publication number: KR20160044485A
Application number: KR1020167004285A
Authority: KR
Inventors: 나디아 파와즈; 압바살리 마크두미 카카키
Original assignee: 톰슨 라이센싱
Priority date: 2013-08-19
Filing date: 2013-11-21
Publication date: 2016-04-25
Also published as: CN105612529A; JP2016535898A; WO2015026385A1; EP3036678A1

Abstract

본 실시형태들은, 일부 유틸리티를 얻기를 희망하여, 그의 비공개 데이터와 상관되는 일부 공개 데이터를 분석가에게 방출하기를 원하는 사용자에 의해 만나게 되는 프라이버시-유틸리티 트레이드오프에 초점을 맞춘다. 다수의 데이터들이 하나 이상의 분석가에게 방출되는 경우, 우리는 분산화된 방식으로 프라이버시 보존 맵핑들을 설계한다. 특히, 각 프라이버시 보존 맵핑은 방출된 데이터 각각으로부터 비공개 데이터의 추론에 대해 별개로 보호하도록 설계된다. 분산화는 많은 변수들을 갖는 하나의 큰 결합 최적화 문제를 더 적은 수의 변수들을 갖는 수개의 더 작은 최적화들로 쪼갬으로써 설계를 단순화한다.

Description

공모 및 구성을 고려한 유틸리티-인식 프라이버시 보존 맵핑을 위한 방법 및 장치{METHOD AND APPARATUS FOR UTILITY-AWARE PRIVACY PRESERVING MAPPING IN VIEW OF COLLUSION AND COMPOSITION}

관련된 출원들에 대한 크로스-참조

본 출원은 모든 목적들을 위해 그 전체가 참조로 여기에 포함되는 다음의 미국 가출원의 출원일의 이익을 주장한다: 2013년 8월 19일자로 출원되고, 발명의 명칭이 "Method and Apparatus for Utility-Aware Privacy Preserving Mapping in View of Collusion and Composition" 인 시리얼 넘버 제 61/867,544 호.

본 출원은 2012년 8월 20일자로 출원되고, 발명의 명칭이 "A Framework for Privacy against Statistical Inference" (이하, "Fawaz") 인 미국 가특허출원 시리얼 넘버 제 61/691,090 호와 관련된다. 그 가특허 출원은 그 전체가 여기에 참조에 의해 명백히 포함된다.

또한, 본 출원은 다음의 출원들에 관련된다: 공동으로 양도되고, 그들의 전체가 참조에 의해 포함되며, 이것과 함께 동시에 출원된 (1) 발명의 명칭이 "Method and Apparatus for Utility-Aware Privacy Preserving Mapping against Inference Attacks" 인 대리인 도켓 넘버 PU130120, 및 (2) 발명의 명칭이 "Method and Apparatus for Utility-Aware Privacy Preserving Mapping through Additive Noise" 인 대리인 도켓 넘버 PU130122.

기술분야

본 발명은 프라이버시를 보존하는 방법 및 장치에 관한 것으로서, 특히 공모 또는 구성을 고려하여 사용자 데이터의 프라이버시를 보존하는 방법 및 장치에 관한 것이다.

빅 데이터의 시대에, 사용자 데이터의 수집 및 발굴은 다수의 사설 및 공공 기관들에 의한 빠르게 성장하고 흔한 관례가 되었다. 예를 들어, 기술 회사들은 그들의 고객들에게 개인화된 서비스들을 제공하기 위해 사용자 데이터를 활용하고, 정부 기관들은 다양한 도전들, 예를 들어 국가 안보, 국가 보건, 예산 및 기금 할당을 다루기 위해 데이터에 의존하며, 의료 기관들은 질병의 원인들 및 질병들에 대한 잠재적인 치료들을 발견하기 위해 데이터를 분석한다. 일부 경우들에서, 제 3 당사자들에 의한 사용자의 데이터의 수집, 분석, 또는 공유는 사용자의 동의나 인식없이 수행된다. 다른 경우들에서, 데이터는 보답으로 서비스를, 예를 들어 추천들을 받기 위해 방출되는 제품 등급들을 얻기 위해 사용자에 의해 특정의 분석가에게 자발적으로 방출된다. 사용자 데이터에 대한 액세스를 허용하는 것으로부터 사용자가 도출하는 이러한 서비스, 또는 다른 이익은 유틸리티 (utility) 로서 지칭될 수도 있다. 어느 경우에나, 수집된 데이터의 일부는 사용자에 의해 민감하게 생각될 수도 있고, 예를 들어, 정치적 의견, 건강 상태, 수입 레벨, 또는 언뜻 보기에는 해롭지 않게 보일 수도 있지만, 예를 들어 제품 등급들, 그러나 그것이 상관되는 더 민감한 데이터의 간섭을 초래할 수도 있기 때문에 프라이버시 위험들이 발생한다. 후자의 위협은 간섭 공격, 즉 공개적으로 방출된 데이터와의 그것의 상관을 활용함으로써 개인 데이터를 간섭하는 기법을 지칭한다.

본 원리들은 사용자에 대한 사용자 데이터를 프로세싱하는 방법을 제공하며, 상기 방법은 비공개 데이터, 제 1 공개 데이터 및 제 2 공개 데이터를 포함하는 사용자 데이터를 액세스하는 단계로서, 상기 제 1 공개 데이터는 제 1 카테고리의 데이터에 대응하고, 상기 제 2 공개 데이터는 제 2 카테고리의 데이터에 대응하는, 상기 사용자 데이터를 액세스하는 단계; 상기 비공개 데이터와 제 1 및 제 2 방출된 데이터 사이의 제 1 정보 누설 바운드 (bound) 를 결정하는 단계; 상기 제 1 정보 누설 바운드에 응답하여, 상기 비공개 데이터 및 상기 제 1 방출된 데이터 사이의 제 2 정보 누설 바운드, 및 상기 비공개 데이터 및 상기 제 2 방출된 데이터 사이의 제 3 정보 누설 바운드를 결정하는 단계; 상기 제 2 바운드에 응답하여 상기 제 1 카테고리의 데이터를 상기 제 1 방출된 데이터에 맵핑하는 제 1 프라이버시 보존 맵핑 및 상기 제 3 바운드에 응답하여 상기 제 2 카테고리의 데이터를 상기 제 2 방출된 데이터에 맵핑하는 제 2 프라이버시 보존 맵핑을 결정하는 단계; 상기 제 1 및 제 2 방출된 데이터를 형성하기 위해, 각각 상기 제 1 및 제 2 프라이버시 보존 맵핑들에 기초하여, 상기 사용자에 대한 상기 제 1 및 제 2 공개 데이터를 변경하는 단계; 및 아래에 기술되는 바와 같은 데이터 수집 에이전시 및 서비스 제공자 중 적어도 하나로 변경된 제 1 및 제 2 공개 데이터를 방출하는 단계를 포함한다. 본 원리들은 또한 이들 단계들을 수행하는 장치를 제공한다.

본 원리들은 또한 사용자에 대한 사용자 데이터를 프로세싱하는 방법을 제공하며, 상기 방법은 비공개 데이터, 제 1 공개 데이터 및 제 2 공개 데이터를 포함하는 사용자 데이터를 액세스하는 단계로서, 상기 제 1 공개 데이터는 제 1 카테고리의 데이터에 대응하고, 상기 제 2 공개 데이터는 제 2 카테고리의 데이터에 대응하는, 상기 사용자 데이터를 액세스하는 단계; 상기 비공개 데이터와 제 1 및 제 2 방출된 데이터 사이의 제 1 정보 누설 바운드 (bound) 를 결정하는 단계; 상기 제 1 정보 누설 바운드에 응답하여, 상기 비공개 데이터와 상기 제 1 방출된 데이터 사이의 제 2 정보 누설 바운드, 및 상기 비공개 데이터와 상기 제 2 방출된 데이터 사이의 제 3 정보 누설 바운드를 결정하는 단계로서, 상기 제 2 바운드 및 상기 제3 바운드 각각은 상기 제 1 바운드와 실질적으로 동일한, 상기 제 2 및 제 3 정보 누설 바운드를 결정하는 단계; 상기 제 2 바운드에 응답하여 상기 제 1 카테고리의 데이터를 상기 제 1 방출된 데이터에 맵핑하는 제 1 프라이버시 보존 맵핑 및 상기 제 3 바운드에 응답하여 상기 제 2 카테고리의 데이터를 상기 제 2 방출된 데이터에 맵핑하는 제 2 프라이버시 보존 맵핑을 결정하는 단계; 상기 제 1 및 제 2 방출된 데이터를 형성하기 위해, 각각 상기 제 1 및 제 2 프라이버시 보존 맵핑들에 기초하여, 상기 사용자에 대한 상기 제 1 및 제 2 공개 데이터를 변경하는 단계; 및 아래에 기술되는 바와 같은 데이터 수집 에이전시 및 서비스 제공자 중 적어도 하나로 변경된 제 1 및 제 2 공개 데이터를 방출하는 단계를 포함한다. 본 원리들은 또한 이들 단계들을 수행하는 장치를 제공한다.

본 원리들은 또한 상술된 방법들에 따라 사용자에 대한 사용자 데이터를 프로세싱하는 명령들을 저장한 컴퓨터 판독가능 저장 매체를 제공한다.

도 1 은 공모 및 구성을 도시하는 그림 예시이다.
도 2 는 본 원리들의 실시형태에 따라, 프라이버시를 보존하는 예시적인 방법을 도시하는 흐름도이다.
도 3 은 본 원리들의 실시형태에 따라 프라이버시를 보존하는 다른 예시적인 방법을 도시하는 흐름도이다.
도 4 는 본 원리들의 실시형태에 따라, 예시적인 프라이버시 에이전트를 도시하는 블록도이다.
도 5 는 본 원리들의 실시형태에 따라, 다수의 프라이버시 에이전트들을 갖는 예시적인 시스템을 도시하는 블록도이다.

차분 프라이버시 (differential privacy) 가 발생하는 데이터베이스 및 암호화 문헌에서, 초점은 알고리즘적이었다. 특히, 연구자들은 추론 알고리즘들, 전송, 및 문의 데이터에 대한 프라이버시 보존 메카니즘들을 설계하기 위해 차분 프라이버시를 사용해 왔다. 더욱 최근의 작업들은 통계적 추론과 차분 프라이버시의 관계에 초점을 맞추었다. 차분 프라이버시는 제한된 정보 누설을 보증하지 않는다. D. Kifer and A. Machanavajjhala, "A rigorous and customizable framework for privacy," in ACM PODS, 2012 에서 발견될 수 있는 퍼퍼피시 (Pufferfish) 프레임워크와 같은 차분 프라이버시와 유사한 다른 프레임워크들이 존재하며, 이것은 그러나 유틸리티 보존에 초점을 맞추지 않는다.

다수의 접근법들은 프라이버시-정확도 트레이드오프를 모델링하고 분석하기 위해 정보-이론적 기법들에 의존한다. 이들 정보-이론적 모델들의 대부분은 데이터베이스의 엔트리들의 모두 또는 서브세트들에 대한 집합적 (collective) 프라이버시에 주로 초점을 맞추고, 데이터베이스 엔트리에 대한 불확실성 또는 출력 방출 후의 입력 변수에 대한 애매함을 유지하는 평균에 대한 점근적 보증들을 제공한다. 대조적으로, 본 출원에서 연구된 프레임워크는 분석가가 방출된 출력을 관찰함으로써 달성하는 정보 누설에 대한 바운드 면에서 프라이버시를 제공한다.

우리는 Fawaz 에서 기술된 설정을 고려하며, 여기서 사용자는 상관되는 2 가지 종류의 데이터를 갖는다: 그가 비공개로 유지하고 싶어하는 일부 데이터, 및 그가 분석가에게 기꺼이 방출하고 그가 그것으로부터 일부 유틸리티, 예를 들어 더욱 정확한 컨텐츠 추전들을 수신하기 위해 서비스 제공자에게의 미디어 선호도들의 방출을 도출할 수도 있는 일부 공개 데이터.

예를 들어 본 출원에서 사용되는 바와 같은 서비스 제공자의 시스템의 부분일 수도 있는 용어 분석가는 사용자에게 유틸리티를 제공하기 위해 데이터를 표면적으로 사용하는, 방출된 데이터의 수신자를 지칭한다. 종종 분석가는 방출된 데이터의 정당한 수신자이다. 그러나, 분석가는 또한 방출된 데이터를 부정당하게 활용하고 사용자의 비공개 데이터에 대한 일부 정보를 추론할 수 있을 것이다. 이것은 프라이버시와 유틸리티 요건들 사이의 긴장을 생성한다. 유틸리티를 유지하면서 추론 위협을 감소시키기 위해, 사용자는 유틸리테 제약 하에서 설계된 "프라이버시 보존 맵핑" 으로 불리는, 조건적 확률론적 맵핑에 따라 생성되는 데이터의 "왜곡된 버전" 을 방출할 수도 있다.

본 출원에서, 우리는 사용자가 비공개로 유지하고 싶어하는 데이터를 "비공개 데이터" 로서, 사용자가 기꺼이 방출하는 데이터를 "공개 데이터" 로서, 및 사용자가 실제로 방출하는 데이터를 "방출된 데이터" 로서 지칭한다. 예를 들어, 사용자는 그의 정치적 의견을 비공개로 유지하기를 원하고, 변경을 갖는 그의 TV 등급들을 기꺼이 방출한다 (예를 들어, 프로그램에 대한 사용자의 실제의 등급은 4 이지만, 그는 등급을 3 으로서 방출한다). 이러한 경우에, 사용자의 정치적 의견은 이러한 사용자에 대한 비공개 데이터인 것으로 고려되고, TV 등급들은 공개 데이터인 것으로 고려되며, 방출된 변경된 TV 등급들은 방출된 데이터인 것으로 고려된다. 다른 사용자가 변경들 없이 정치적 의견 및 TV 등급들 양자 모두를 기꺼이 방출할 수도 있고, 따라서, 이러한 다른 사용자에 대해, 정치적 의견 및 TV 등급들만이 고려되는 경우 비공개 데이터, 공개 데이터, 및 방출된 데이터 사이에 구별이 없다. 다수의 사람들이 정치적 의견들 및 TV 등급들을 방출하는 경우, 분석가는 정치적 의견들 및 TV 등급들 사이의 상관을 도출할 수 있을 수도 있고, 따라서, 비공개로 유지하기를 원하는 사용자의 정치적 의견을 추론할 수 있을 수도 있다.

비공개 데이터에 관하여는, 이것은 사용자가 그것이 공개적으로 방출되지 않아야한다고 나타낼 뿐아니라, 그가 그것이 그가 방출할 다른 데이터로부터 추론되기를 원하지 않는다고 나타내는 데이터를 지칭한다. 공개 데이터는 사용자가 프라이버시 에이전트가 가능하게는 비공개 데이터의 추론을 방지하는 왜곡된 방식으로 방출하는 것을 허용할 데이터이다.

하나의 실시형태에서, 공개 데이터는 서비스 사용자가 사용자에게 서비스를 제공하기 위해 그로부터 요청하는 데이터이다. 그러나, 사용자는 서비스 제공자에게 그것을 방출하기 전에 그것을 왜곡 (즉 변경) 시킬 것이다. 다른 실시형태에서, 공개 데이터는 방출이 비공개 데이터의 추론에 대해 보호하는 형태를 취하는 한 사용자가 그것을 방출하기를 꺼리지 않을 것이라는 의미에서 사용자가 "공개적" 인 것으로서 나타내는 데이터이다.

상술된 바와 같이, 특정의 카테고리의 데이터가 비공개 데이터 또는 공개 데이터로서 고려되는지 여부는 특정의 사용자의 관점에 기초한다. 표기의 편의상, 우리는 현재의 사용자의 관점으로부터 특정의 카테고리의 데이터를 비공개 데이터 또는 공개 데이터로서 칭한다. 예를 들어, 그의 정치적 의견을 비공개로 유지하기를 원하는 현재의 사용자에 대한 프라이버시 보존 맵핑을 설계하기를 시도하는 경우, 우리는 정치적 의견을 현재의 사용자 및 그의 정치적 의견을 기꺼이 방출하는 다른 사용자 양자 모두에 대해 비공개 데이터로서 칭한다.

본 원리들에서, 우리는 유틸리티의 측정으로서 방출된 데이터와 공개 데이터 사이의 왜곡을 사용한다. 왜곡이 더 크면, 방출된 데이터는 공개 데이터와 더욱 상이하고, 더 많은 프라이버시가 보존되지만, 왜곡된 데이터로부터 도출되는 유틸리티는 사용자에 대해 사용자에 대해 더 낮을 수도 있다. 한편, 왜곡이 더 작으면, 방출된 데이터는 공개 데이터의 더욱 정확한 표현이고, 사용자는 더 많은 유틸리티를 수신할 수도 있고, 예를 들어 더욱 정확한 컨텐츠 추천들응ㄹ 수신할 수도 있다.

하나의 실시형태에서, 통계적 추론에 대해 프라이버시를 보존하기 위해, 우리는 프라이버시-유틸리티 트레이드오프르르 모델링하고, 왜곡 제약을 받는, 비공개 데이터와 방출된 데이터 사이의 상호 정보로서 정의되는 정보 누설을 최소화하는 최적화 문제를 풂으로서 프라이버시 보존 맵핑을 설계한다.

Fawaz 에서, 프라이버시 보존 맵핑을 발견하는 것은 비공개 데이터 및 방출된 데이터를 링크하는 이전의 결합 분포가 알려져 있고 최적화 문제에 대한 입력으로서 제공될 수 있다는 기초적인 가정에 의존한다. 실제로, 진정한 이전의 분포는 알려져 있지 않을 수도 있지만, 오히려 일부 이전의 통계가 관찰될 수 있는 샘플 데이터의 세트로부터 추정될 수도 있다. 예를 들어, 이전의 결합 분포는 그들의 프라이버시에 대해 염려하는 사용자들에 의해 비공개 또는 공개 데이터인 것으로 고려될 수도 있는 상이한 카테고리들의 데이터를 공개적으로 방출하고 프라이버시 염려들을 갖지 않는 사용자들의 세트로부터 추정될 수 있을 것이다. 대안적으로, 비공개 데이터가 관찰될 수 없는 경우, 방출될 공개 데이터의 주변적 분포, 또는 간단히 그것의 제 2 오더 (order) 통계가 그들의 공개 데이터만을 방출하는 사용자들의 세트로부터 추정될 수도 있다. 샘플들의 이러한 세트에 기초하여 추정되는 통계는 그 후 그들의 프라이버시에 대해 염려하는 새로운 사용자들에게 적용될 프라이버시 보존 맵핑을 설계하기 위해 사용된다. 실제로, 예를 들어 소수의 관찰가능한 샘플들, 또는 관찰가능한 데이터의 불완전으로 인해 추정된 이전의 통계와 진정한 이전의 통계 사이의 미스매치가 또한 존재할 수도 있다.

문제를 포뮬레이트하기 위해, 공개 데이터는 확률 분포 (P_X) 를 갖는 랜덤 변수 X ∈

에 의해 표시된다. X 는 랜덤 변수 S ∈ S 에 의해 표시되는 비공개 데이터와 상관된다. S 와 X 의 상관은 결합 분포 (P_S,X) 에 의해 정의된다. 램덤 변수 Y ∈

에 의해 표시되는 방출된 데이터는 X 의 왜곡된 버전이다. Y 는 커널 (P_Y _|X) 을 통해 X 를 통과시키는 것을 통해 달성된다. 본 출원에서, 용어 "커널" 은 데이터 X 를 데이터 Y 에 확률론적으로 맵핑하는 조건적 확률을 지칭한다. 즉, 커널 (P_Y _|X) 이 우리가 설계하기 원하는 프라이버시 보존 맵핑이다. 본 출원에서 Y 가 X 만의 확률론적 함수이므로, 우리는 S -> X -> Y 가 마르코프 체인을 형성한다고 가정한다. 따라서, 일단 우리가 P_Y _| _X 를 정의하면, 우리는 결합 분포 (P_S,X,Y = P_Y _| _XP_S,X) 및 특히 결합 분포 (P_S,Y) 를 갖는다.

다음에서, 우리는 먼저 프라이버시 개념, 및 그 후 정확도 개념을 정의한다.

정의 1. S -> X -> Y 를 가정하라. 결합 분포 (P_S,X,Y = P_Y _| _XP_S,X) 로부터 초래되는 분포 (P_S,Y) 가

를 만족시키는 경우, 커널 (P_Y _|X) 은 ε-발산 비공개로 칭해지며, 여기서, D(.) 는 K-L 발산이고,

는 랜덤 변수의 기대값이며, H(.) 는 엔트로피이고, ε ∈ [0,1] 는 누설 팩터로 칭해지며, 상호 정보 I(S;Y) 는 정보 누설을 나타낸다.

우리는 ε = 0 인 경우 메카니즘이 완전한 프라이버시를 갖는다고 말한다. 극단의 경우들에서, ε = 0 은 방출된 랜덤 변수 (Y) 가 비공개 랜덤 변수 (S) 로부터 독립적이라는 것을 암시하고, ε = 1 은 S 가 Y 로부터 완전히 복구가능하다는 것을 암시한다 (S 는 Y 의 결정론적인 함수이다). 완전한 프라이버시 (ε = 0) 를 갖기 위해 Y 가 S 로부터 완전히 독립적이라고 가정할 수 있지만, 이것은 열악한 정확도 레벨을 초래할 수도 있다. 우리는 정확도를 다음과 같이 정의한다.

정의 2.

을 왜곡 측정이라 하자. 만일

이면, 커널 (P_Y _|X) 은 D-정확 (D-accurate) 으로 칭해진다.

X 및 Y 가 이진수 벡터들인 경우 해밍 거리, 또는 X 및 Y 가 실수 벡터들인 경우 유클리디안 놈 (norm), 또는 사용자가 X 대신 Y 의 방출로부터 도출할 유틸리티에서의 변동을 모델링하는 훨씬 더 복잡한 메트릭들과 같은 임의의 왜곡 메트릭이 사용될 수 있다는 것을 유의해야 한다. 후자는, 예를 들어 그의 진정한 선호도들 (X) 대신에 그의 왜곡된 미디어 선호도들 (Y) 의 방출에 기초하여 사용자에게 추천되는 컨텐츠의 품질에서의 차이를 나타낼 수 있을 것이다.

프라이버시 보존 맵핑의 왜곡 레벨 (D) 과 누설 팩터 (ε) 사이의 트레이드오프가 존재한다. 하나의 실시형태에서, 우리의 목적은 유틸리티 제약이 주어진 경우 추론될 수 있는 비공개 정보의 양을 제한하는 것이다. 추론이 비공개 데이터와 방출된 데이터 사이의 정보 누설에 의해 측정되고 유틸리티가 공개 데이터 및 방출된 데이터 사이의 왜곡에 의해 표시되는 경우, 그 목적은 왜곡 제약이 주어지는 경우 최대 정보 누설 I(S;Y) 을 최소화하는 확률 맵핑 (P_Y _|X) 을 발견하기 위해 수학적으로 포뮬레이트될 수 있고, 여기서 최대값은 프라이버시 에이전트에서 이용가능한 분포 (P_S,Y) 에 대한 통계적 지식에서의 불확실성에 대해 취해진다:

확률 분포 (P_S,Y) 는 결합 분포 (P_S,X,Y = P_Y _| _XP_S,X = P_Y _| _XP_S _| _XP_X) 로부터 획득될 수 있다.

다음에서, 우리는 최대 상관으로 칭해지는 통계적 추론에서의 일부 기법들에 기초하여, 왜곡 제약을 받는 프라이버시를 달성하는 (즉, 정보 누설을 최소화하는) 스킴을 제안한다. 우리는 우리가 결합 확률 측정 (P_S,X) 에 대한 완전한 지식 없이 프라이버시 보존 맵핑들을 설계하기 위해 이러한 이론을 사용할 수 있는 방법을 보여준다. 특히, 우리는 정보 누설에 대한 분리가능성 (separability) 결과를 증명한다: 더욱 상세하게는, 우리는 커널 (P_Y _|X) 에 의해 결정되는, 최대 상관 팩터와 I(S;X) 의 곱에 의해 정보 누설에 대한 상위 (upper) 바운드를 제공한다. 이것은 결합 확률 측정 (P_S,X) 에 대한 완전한 지식 없이 최적 맵핑을 포뮬레이트하는 것을 허용한다.

다음에, 우리는 디커플링 (decoupling) 결과를 진술하는데 있어서 사용되는 정의를 제공한다.

정의 3. 주어진 결합 분포 (P_X,Y) 에 대해,

라 하고, 여기서 r(y) 는 Y 에 대한 p(y|x)r(x) 의 주변적 측정이다.

발산에 대한 데이터 프로세싱 불균등 (inequality) 으로 인해,

라는 것을 유의하라. 다음은 V. Anantharam, A. Gohari, S. Kamath, and C. Nair, "On maximal correlation, hypercontractivity, and the data processing inequality studied by Erkip and Cover," arXiv preprint arXiv:1304.6133, 2013 (이하, "Anantharam") 에 의한 기사의 결과이다.

정리 1. S -> X -> Y 가 마르코프 체인을 형성하는 경우, 다음의 바운드는:

을 유지하고, 그 바운드는 우리가 S 를 변화시킴에 따라 타이트 (tight) 하다. 즉, 우리는 I(S;X) ≠ 0 라고 가정할 때

를 갖는다.

정리 1 은 Y 및 S 의 종속성을 2 개의 항들, S 및 X 와 관련된 하나, 및 X 및 Y 와 관련된 하나로 디커플링한다. 따라서, X 및 Y 와 관련된 항을 최소화함으로써, P_S,X 에 대한 지식없이도 정보 누설을 상위 바운딩할 수 있다. 우리의 문제에서의 이러한 결과의 적용은 다음과 같다:

우리가 P_S,X 가 알려져 있지 않고, 일부 Δ ∈ [0, H(S)] 에 대해 I(S;X) ≤ Δ 라는 레짐 (regime) 에 있다고 가정하라. I(S;X) 는 S 에 대해 X 에 임베딩된 고유 정보이며, 이것에 대해 우리는 제어를 가지지 않는다. Δ 의 값은 우리가 발견할 맵핑에 영향을 주지 않지만, Δ 의 값은 우리가 생각하기에 이러한 맵핑으로부터 야기되는 (용어 누설 팩터로) 프라이버시 보증인 것에 영향을 준다. Δ 바운드가 타이트한 경우, 프라이버시 보증은 타이트할 것이다. Δ 바운드가 타이트하지 않는 경우, 우리는 목표 누설 팩터에 대해 실제로 필요한 것보다 더 많은 왜곡을 지불하고 있을 수도 있지만, 이것은 프라이버시 보증에 영향을 주지 않는다.

정리 1 을 사용하면, 우리는 다음을 갖는다:

따라서, 최적화 문제는 다음의 목적 함수를 최소화하는 P_Y _| _X 를 발견하는 것이 된다:

이러한 최적화 문제를 더 상세하게 연구하기 위해, 우리는 최대 상관 문헌에서의 일부 결과들을 검토한다. 최대 상관 (또는 Renyi 상관) 은 정보 이론 및 컴퓨터 사이언스 양자 모두에서 애플리케이션들을 갖는 2 개의 랜덤 변수들 사이의 상관의 측정이다. 다음에서, 우리는 최대 상관을 정의하고

와의 그것의 관계를 제공한다.

정의 4. 2 개의 랜덤 변수들 (X 및 Y) 가 주어지면, (X, Y) 의 최대 상관은

이며, 여기서

는

이고

이도록 하는 실수 값 랜덤 변수들 f(X) 및 g(Y) 의 쌍들의 집합이다.

이러한 측정은 Hirschfeld (H. O. Hirschfeld, "A connection between correlation and contingency," in Proceedings of the Cambridge Philosophical Society, vol. 31) 및 Gebelein (H. Gebelein, "Das statistische Problem der Korrelation als Variations- und Eigenwert-problem und sein Zusammenhang mit der Ausgleichungsrechnung," Zeitschrift fur angew. Math. und Mech. 21, pp. 364-379 (1941)) 에 의해 먼저 도입되었고, 그 후 Renyi (A. Renyi, "On measures of dependence," Acta Mathematica Hungarica, vol. 10, no. 3) 에 의해 연구되었다. 최근에, Anantharam et al. 및 Kamath et al. (S. Kamath and V. Anantharam, "Non-interactive simulation of joint distributions: The hirschfeld-gegelein-renyi maximal correlation and the hypercontractivity ribbon," in Communication, Control, and Computing (Allerton), 2012 50th Annual Allerton Conference on, 이하, "Kamath") 이 최대 상관을 연구하고 이러한 양의 지오메트릭 해석을 제공했다. 다음은 R. Ahlswede and P. Gacs, "Spreading of sets in product spaces and hypercontraction of the markov operator," The Annals of Probability (이하, "Ahlswede") 에 의한 기사의 결과이다:

(8) 에 (10) 을 대입시키면, 프라이버시 보존 맵핑은

의 해이다.

최대 상관

가 엔트리들

을 갖는 행렬 (Q) 의 제 2 최대 특이값을 특징으로 한다는 것이 H.S. Witsenhausen, "On sequences of pairs of dependent random variables," SIAM Journal on Applied Mathematics, vol. 28, no. 1 에 의한 기사에서 보여진다. 최적화 문제는 행렬의 특이값들을 발견하기 위한 멱 반복 알고리즘 또는 란쵸스 (Lanczos) 알고리즘에 의해 해결될 수 있다.

위에서, 우리는 프라이버시 보존 맵핑들이 정리 1 에서의 분리가능성 결과를 사용하여 설계될 수 있는 방법을 논의한다. 위에서 논의된 방법들은 하나 또는 수개의 분석가에게의 다수의 데이터 방출들이 발생하는 경우 일어나는 프라이버시 보존 맵핑 메카니즘들의 설계에서의 새로운 도전들을 다루기 위해 사용될 수 있는 기법들 중에 있다. 본 출원에서, 우리는 공모 또는 구성을 고려하는 프라이버시 맵핑 메카니즘들을 제공한다.

다음에서, 우리는 공모 및 구성 하에서의 도전들을 정의한다.

공모: 비공개 데이터 (S) 는 2 개의 공개 데이터 (X₁ 및 X₂) 와 상관된다. 2 개의 프라이버시 보존 맵핑들이 각각 2 개의 방출된 데이터 (Y₁ 및 Y₂) 를 획득하기 위해 이들 공개 데이터에 적용되고, 그것은 그 후 2 개의 분석가들에게 방출된다. 우리는 분석가들이 Y₁ 및 Y₂ 를 공유할 때 S 에 대한 누적 프라이버시 보증들을 분석하기를 원한다. 본 출원에서, 우리는 또한 Y₁ 및 Y₂ 를 공유하는 분석가들을 공모 엔티티들로서 지칭한다.

우리는 2 개의 프라이버시 보존 맵핑들이 분산화된 방식으로 설계되는 경우에 초점을 맞춘다: 각각의 프라이버시 보존 맵핑은 방출된 데이터 각각으로부터 S 의 추론에 대해 개별적으로 보호하도록 설계된다. 분산화는 많은 변수들을 갖는 하나의 큰 최적화 (결합 설계) 를 더 적은 변수들을 갖는 수개의 더 작은 최적화들로 쪼갬으로써 설계를 단순화한다.

구성: 비공개 데이터 (S) 는 결합 확률 분포 P(S;X₁;X₂) 를 통해 공개 데이터 (X₁ 및 X₂) 와 상관된다. 우리가 2 개의 프라이버시 보존 맵핑들을 별개로 설계할 수 있고, 여기서 하나의 맵핑은 X₁ 을 Y₁ 으로 변환하고, 다른 맵핑은 X₂ 를 Y₂ 로 변환한다고 가정하라. 분석가는 쌍 (X₁, X₂) 를 요청한다. 우리는 그 쌍 (X₁, X₂) 에 대한 프라이버시 보존 맵핑을 생성하기 위해 이들 2 개의 별개의 프라이버시 맵핑들을 재사용하기를 원하며, 이것은 여전히 소정 레벨의 프라이버시를 보증한다.

도 1 은 공모 및 구성에 관한 예들을 제공한다:

- 예 1: 단일의 비공개 데이터 및 다수의 공개 데이터가 고려되는 때의 공모;

- 예 2: 다수의 비공개 데이터 및 다수의 공개 데이터가 고려되는 때의 공모;

- 예 3: 단일의 비공개 데이터 및 다수의 공개 데이터가 고려되는 때의 구성;

- 예 4: 다수의 비공개 데이터 및 다수의 공개 데이터가 고려되는 때의 구성.

예 1 에서, 비공개 데이터 (S) 는 2 개의 공개 데이터 (X₁ 및 X₂) 와 상관된다. 이러한 예에서, 우리는 정치적 의견을 비공개 데이터 (S) 로서, TV 등급을 공개 데이터 (X₁) 로서, 스낵 등급을 공개 데이터 (X₂) 로서 고려한다. 2 개의 프라이버시 보존 맵핑들은 각각 2 개의 엔티티들에 제공되는 2 개의 방출된 데이터 (Y₁ 및 Y₂) 를 획득하기 위해 이들 공개 데이터에 적용된다. 예를 들어, 왜곡된 TV 등급 (Y₁) 이 넷플릭스 (Netflix) 에 제공되고, 왜곡된 스낵 등급 (Y₂) 이 크래프트 푸드스 (Kraft Foods) 에 제공된다. 프라이버시 보존 맵핑들은 분산화된 방식으로 설계된다. 프라이버시 보존 맵핑 스킴들의 각각은 대응하는 분석가로부터 S 를 보호하도록 설계된다. 넷플릭스가 정보 (Y₁) 를 크래프트 (Y₂) 와 교환하는 경우, 사용자의 비공개 데이터 (S) 는 그들이 Y₁ 또는 Y₂ 만에 의존하는 경우보다 더 정확하게 복구될 수도 있다. 우리는 분석가들이 Y₁ 및 Y₂ 를 공유할 때 프라이버시 보증들을 분석하기를 원한다. 이러한 예에서, 넷플릭스는 TV 등급에 대한 정보의 정당한 수신자이지만, 스낵 등급은 아니며, 크래프트 푸드스는 스낵 등급에 대한 정보의 정당한 수신자이지만, TV 등급은 아니다. 그러나, 그들은 사용자의 비공개 데이터에 대해 더 많은 것을 추론하기 위해 정보를 공유할 수도 있다.

예 2 에서, 비공개 데이터 (S₁) 는 공개 데이터 (X₁) 와 상관되고, 비공개 데이터 (S₂) 는 공개 데이터 (X₂) 와 상관된다. 이러한 예에서, 우리는 수입을 비공개 데이터 (S₁) 로서, 성별을 비공개 데이터 (S₂) 로서, TV 등급을 공개 데이터 (X₁) 로서, 및 스낵 등급을 공개 데이터 (X₂) 로서 고려한다. 2 개의 프라이버시 보존 맵핑들은 각각 2 개의 분석가들에게 제공되는 2 개의 방출된 데이터 (Y₁ 및 Y₂) 를 획득하기 위해 이들 공개 데이터에 적용된다.

예 3 에서, 비공개 데이터 (S) 는 결합 확률 분포 (P_S,X1,X2) 을 통해 공개 데이터 (X₁ 및 X₂) 와 상관된다. 이러한 예에서, 우리는 정치적 의견을 비공개 데이터 (S) 로서, 폭스 뉴스에 대한 TV 등급을 공개 데이터 (X₁) 로서, 및 ABC 뉴스에 대한 TV 등급을 공개 데이터 (X₂) 로서 고려한다. 분석가, 예를 들어 컴캐스트는 X₁ 및 X₂ 양자 모두를 요구한다. 다시, 프라이버시 보존 맵핑들은 별개로 설계되고 우리는 프라이버시 에이전트가 S₁ 및 S₂ 양자 모두에 대한 그녀의 정보 (Y₁ 및 Y₂) 를 결합할 때 프라이버시 보증들을 분석하기를 원한다. 이러한 예에서, 컴캐스트는 폭스 뉴스 및 ABC 뉴스에 대한 TV 등급들 양자의 정당한 수신자이다.

예 4 에서, 2 개의 비공개 데이터 (S₁ 및 S₂) 는 결합 확률 분포 (P_S1,S2,X1,X2) 를 통해 공개 데이터 (X₁및 X₂) 와 상관된다. 이러한 예에서, 우리는 수입을 비공개 데이터 (S₁) 로서, 성별을 비공개 데이터 (S₂) 로서, TV 등급을 공개 데이터 (X₁) 로서, 및 스낵 등급을 공개 데이터 (X₂) 로서 고려한다.

위에서 논의된 바와 같이, 다수의 랜덤 변수들 (예를 들어, X₁및 X₂) 이 공모 또는 구성이 존재하는 경우에 수반된다. 그러나, 큰 사이즈 X 에 대한 맵핑들 (다수의 변수들을 갖는 큰 벡터) 은, 프라이버시 맵핑에 솔루션을 제공하는 최적화 문제의 복잡성이 벡터 (X) 의 사이즈와 비례하기 때문에, 작은 사이즈 X (가능하게는 하나의 변수, 또는 작은 벡터) 에 대한 맵핑들보다 설계하기가 더 어렵다.

하나의 실시형태에서, 우리는 많은 변수들을 갖는 하나의 큰 최적화를 더 적은 변수들을 갖는 수개의 더 작은 최적화로 쪼갬으로써 최적화 문제의 설계를 단순화한다.

공모 및 구성 문제들 양자는 다음의 설정에서 캡쳐될 수 있다.

비공개 랜덤 변수 (S) 가 X₁및 X₂ 와 상관된다고 가정하라. X₁ 및 X₂ 의 왜곡된 버전들은 각각 Y₁ 및 Y₂ 에 의해 표시된다. 우리는 왜곡 제약들이 각각 주어지는 경우 Y₁ 및 Y₂ 를 획득하기 위해 X₁및 X₂ 에 대해 2 개의 별개의 프라이버시 보존 맵핑들 P(Y₁|X₁) 및 P(Y₂|X₂) 을 수행한다. 개개의 정보 누설들은 I(S; Y₁) 및 I(S; Y₂) 이다. Y₁ 및 Y₂ 가 공모 엔티티들에 의해, 또는 구성을 통해 프라이버시 에이전트에 의해 쌍 (Y₁, Y₂) 으로 함께 결합된다고 가정하라.

본 원리들에서, 우리는 다수의 방출들 하에서 프라이버시 보증들이 결합하는 방법의 문제, 즉 다수의 방출된 데이터가 구성 또는 공모를 통해 결합되는 경우 결과의 누적 정보 누설을 획득하는 문제를 다룬다. 프라이버시 보증들의 결합의 규칙들은 비공개 데이터의 그들의 추론을 향상시키기 위해 그들에게 개별적으로 방출되는 데이터를 공유하는 공모 엔티티들의 이슈를 다루는데 있어서 도움이된다. 결합 규칙들은 또한 다수의 피스들의 데이터에 대한 결합 설계를 개개의 피스들의 데이터에 대한 수개의 더 간단한 설계 문제들로 쪼개는 것을 허용함으로써 프라이버시 보존 맵핑 메카니즘들의 설계에 있어서 도움이 된다.

프라이버시 보존 스킴들의 결합은 수개의 현존하는 작업들에서 연구된다. 이들 작업들의 초점은 공모 또는 구성의 존재하에서의 차분 프라이버시에 있다. 그러나, 본 원리들은 정보-이론적 프라이버시 메트릭 하에서 공모 또는 구성의 존재하에서의 프라이버시를 고려한다.

다음에서, 우리는 먼저 방출들이 동일한 비공개 데이터에 관련되는 경우 (예를 들어, 예 1 및 예 3) 를 논의하고, 그 후 방출들이 비공개 데이터의 상이하지만 상관된 피스들과 관련되는 경우로 분석을 확장한다.

단일의 비공개 데이터, 다수의 공개 데이터

비공개 랜덤 변수 (S) 가 X₁및 X₂ 와 상관된다고 가정하라. X₁ 및 X₂ 의 왜곡된 버전들은 각각 Y₁ 및 Y₂ 에 의해 표시된다. 우리는 각각 Y₁ 및 Y₂ 를 획득하기 위해 X₁및 X₂ 에 대해 2 개의 별개의 프라이버시 보존 맵핑들을 수행한다. P_Y1|X1 및 P_Y2| _X2 는 주어진 왜곡 제약들로 설계되고, 개개의 정보 누설들은 각각 I(S; Y₁) 및 I(S; Y₂) 이다. 2 개의 방출된 데이터 (Y₁ 및 Y₂) 가 공모 엔티티들에 의해, 또는 구성을 통해 프라이버시 에이전트에 의해 쌍 (Y₁, Y₂) 으로 함께 결합된다고 가정하라. 우리는 정보의 이러한 결합하에서 결과의 누적 프라이버시 누설 I(S;Y₁,Y₂) 를 분석하기를 원한다.

레마 1. Y₁, Y₂ 및 S 는 임의의 순서로 마르코프 체인을 형성한다고 가정하라. 프라이버시 보존 맵핑들이 각각 Y₁ 및 Y₂ 에 의해 I(Y₁;S) 및 I(Y₂;S) 비트들을 누설하는 경우, 많아야 I(Y₁;S) + I(Y₂;S) 비트들의 정보가 쌍 (Y₁ 및 Y₂) 에 의해 누설된다. 즉, I(Y₁,Y₂;S) ≤ I(Y₁;S) + I(Y₂;S) 이다. 게다가, S -> Y₁ -> Y₂ 이면, I(S;Y₁,Y₂) ≤ I(Y₁;S) 이다. S -> Y₂ -> Y₁ 이면, I(S;Y₁,Y₂) ≤ I(Y₂;S) 이다.

증명: 3 개의 랜덤 변수들이 마르코프 체인, A -> B -> C 를 형성하는 경우, 우리는 I(A;B) ≥ I(A;B|C), I(B;C) ≥ I(B;C|A), 및 I(A;C|B) = 0 을 갖는다는 것을 유의하라. 그 증명은 이러한 사실로부터 따라온다.

레마 1 은 맵핑이 설계될 때 P_S,X 에 대한 얼마나 많은 지식이 이용가능한지에 관계없이 적용된다. 레마 1 에서의 바운드들은 P_S,X 가 알려져 있을 때 유지된다. 그것은 또한 프라이버시 보존 맵핑들이 정리 1 에서의 분리가능성 결과에 기초하는 방법을 사용하여 설계되는 경우 유지된다.

Y₁ 및 Y₂ 를 함께 사용하는 것은 S 의 완전한 복구를 야기할 수도 있을 것이라는 것을 유의하라. 예를 들어, S, Y₁ 및 Y₂ 가

이고

이도록 하는 3 개의

랜덤 변수들이라고 한다. 그러면, 우리는 I(Y₁;S) = I(Y₂;S) = 0 을 갖는 반면, I(Y₁,Y₂;S) = 1 비트이고 S 는 (Y₁, Y₂) 로부터 완전히 복구가능하다. 다른 예는 Y₁ = S + N 일 때이며, 여기서 N 은 일부 노이즈이고 Y₂ = S - N 이다. 우리는 Y₁ 및 Y₂ 을 가산함으로써 S 를 완전히 복구할 수 있다.

도 2 는 본 원리들의 실시형태에 따라, 공모 또는 구성을 고려하여 프라이버시를 보존하는 예시적인 방법 (200) 을 도시한다. 방법 (200) 은 단계 (205) 에서 시작된다. 단계 (210) 에서, 그것은 단일의 비공개 데이터 (S) 및 공개 데이터 (X₁ 및 X₂) 에 기초하여 통계 정보를 수집한다. 단계 (220) 에서, 그것은 방출된 데이터 (Y₁ 및 Y₂) 의 공모 또는 구성을 고려하여 비공개 데이터 (S) 에 대한 누적 프라이버시 보증을 결정한다. 즉, 그것은 I(S;Y₁,Y₂) 에 대한 누설 팩터 (ε) 를 결정한다.

레마 1 을 따르면, 프라이버시 보존 맵핑들은 공개 데이터 (X₁ 및 X₂) 에 대해 분산화된 방식으로 설계된다. 단계 (230) 에서, 그것은 I(S;Y₁) 에 대해 누설 팩터 (ε₁) 이 주어지는 경우, 공개 데이터 (X₁) 에 대한 프라이버시 보존 맵핑 P_Y1|X1 을 결정한다. 유사하게, 단계 (235) 에서, 그것은 I(S;Y₂) 에 대해 누설 팩터 (ε₂) 이 주어지는 경우, 공개 데이터 (X₂) 에 대한 프라이버시 보존 맵핑 P_Y2|X2 을 결정한다.

하나의 실시형태에서, 우리는 ε = ε₁ + ε₂, 예를 들어 ε₁ = ε₂ = ε/2 로 설정할 수도 있다. 단계들 (230 및 235) 에서 설계된 프라이버시 보존 맵핑들에 따르면,

I(S;Y₁) ≤ ε₁H(S), I(S;Y₂) ≤ ε₂H(S)

이고, 레마 1 을 사용하여, 우리는

I(Y₁,Y₂;S) ≤ I(Y₁;S) + I(Y₂;S) ≤ ε₁H(S) + ε₂H(S) ≤ εH(S)

를 갖는다.

단계 (240 및 245) 에서, 우리는 각각 프라이버시 보존 맵핑들 (P_Y1|X1 및 P_Y2|X2) 에 따라 데이터 (X₁ 및 X₂) 를 왜곡한다. 단계들 (250 및 255) 에서, 왜곡된 데이터는 각각 Y₁ 및 Y₂ 로서 방출된다.

이전에 논의된 바와 같이, 공모는 방출된 데이터 (Y₁) (그러나 Y₂ 는 아님) 의 정당한 수신자가 방출된 데이터 (Y₂) (그러나 Y₁ 은 아님) 의 정당한 수신자와 Y₂ 에 대한 정보를 교환하는 경우 발생할 수도 있다. 한편, 구성의 경우, 양자의 방출된 데이터들이 동일한 수신자에 의해 정당하게 수신되고, 구성은 수신자가 사용자에 대한 더 많은 정보를 추론하기 위해 방출된 데이터 양자 모두로부터의 정보를 결합할 때 발생한다.

다음에, 우리는 쌍 (Y₁ 및 Y₂) 에 의해 누설된 정보의 누적 양을 상위 바운딩하기 위해 최대 상관에 대한 결과들을 사용한다.

라 한다. I(Y₁;Y₂) ≥ λI(X₁;X₂) 이면, 우리는

을 갖는다

증명: 그 정리를 증명하기 위해 우리는 다음을 제공한다.

제안 4. P_Y1,Y2 _| _X1,X2 = P_Y1| _X1P_Y2 _| _X2 이고, λ=

라 한다. I(Y₁;Y₂) ≥ λI(X₁;X₂) 이면, 우리는

을 갖는다.

게다가, X₁ 및 X₂ 가 독립적이라면 (또는 등가적으로, (X₁, Y₁) 및 (X₂, Y₂) 가 독립적이라면), 우리는 다음을 갖는다:

먼저, 우리는 이러한 제안을 증명한다. 독립성이 유지되는 특정의 경우는 Anantharam 에서 이전에 증명되었고, 일반적인 경우에 대한 증명은, I(Y₁;Y₂) ≥ λI(X₁; X₂) 가 부등식 (20) 을 획득하기 위해 Anantharam 에서 언급된 유일하게 요구된 부등식이라는 것을 유의함으로써

의 텐서화 (tensorization) 의 증명의 동일 선들을 따른다 (Anantharam, 10 페이지, 파트 C 참조).

정리 4 의 증명으로 돌아가: 우리가 마르코프 체인, S -> (X₁, X₂) -> (Y₁, Y₂) 를 가지기 때문에, 정리 1 을 사용하여, 우리는 다음을 얻는다:

이제, 제안 4 를 사용하여, 증명의 결론을 내린다.

따라서, 양 맵핑들이 작은 최대 상관으로 별개로 설계되는 경우, 우리는 여전히 쌍 (Y₁ 및 Y₂) 에 의해 누설되는 정보의 누적 양을 바운딩할 수 있다.

계 (corollary) 1. 상위 바운드 (19) 에서의 제 1 항, 즉 I(X₁,X₂;S) 는 다음과 같이 바운딩될 수 있다:

X₁, X₂및 S 가 임의의 순서로 마르코프 체인을 형성하는 경우, I(X,X₂;S) ≤ I(X;S) + I(X;S) 이다. 게다가, S -> X₁ -> X₂ 인 경우, I(S;X₁,X₂) ≤ I(X₁;S) 이다. S -> X₂ -> X₁ 인 경우, I(S;X₁,X₂) ≤ I(X₂;S) 이다.

증명: 증명은 레마 1 의 증명과 유사하다.

I(S;Y₁), I(S;Y₂) 및 I(S;Y₁,Y₂) 는 H(S) 이하라는 것을 유의하라. 우리가

을 선택하면, 우리는 다음을 얻는다:

도 3 은 본 원리들의 실시형태에 따라 공모 또는 구성을 고려하여 프라이버시를 보존하는 예시적인 방법 (300) 을 도시한다. 방법 (300) 은

이고 (330) 이고

인 것 (335) 을 제외하고 방법 (200) 과 유사하다. 방법 (200) 은 레마 1 에서 진술된 일부 마르코프 체인 가정들하에서 작동하는 반면, 방법 (300) 은 더욱 일반적으로 작동한다.

다수의 비공개 데이터, 다수의 공개 데이터

우리가 각각 X₁및 X₂와 상관되는 2 개의 비공개 랜덤 변수들 (S₁ 및 S₂) 을 갖는다고 가정하라. 우리는 각각 Y₁및 Y₂를 획득하기 위해 X₁및 X₂를 왜곡시킨다. 분석가는 Y₁및 Y₂에 대한 액세스를 가지며 (S₁,S₂) 를 발견하기를 원한다.

라 한다. I(Y₁;Y₂) ≥ λI(X₁;X₂) 이면, 우리는

을 획득한다.

증명: 정리 4 의 증명과 유사함

따라서, 쌍 (Y₁ 및 Y₂) 의 누적 정보 누설은 (21) 에 의해 바운딩된다. 특히, X₁및 X₂가 독립적이면, 이러한 바운드가 유지된다.

도 2 에서, 우리는 공모 또는 구성을 고려하여 단일의 비공개 데이터 및 2 개의 공개 데이터를 고려하는 프라이버시 보존 맵핑들을 결정하는 방법 (200) 을 논의한다. 2 개의 비공개 데이터가 존재하는 경우, 방법 (200) 은 일부 변경들이 적용될 수 있다. 구체적으로는, 단계 (210) 에서, 우리는 S_1, S₂, X₁및 X₂에 기초하여 통계 정보를 수집한다. 단계 (230) 에서, 우리는 I(S₁;Y₁) 에 대한 누설 팩터 (ε₁) 가 주어지는 경우 공개 데이터 (X₁) 에 대한 프라이버시 보존 맵핑 (P_Y1|X1) 을 설계한다. 단계 (235) 에서, 우리는 I(S₂;Y₂) 에 대한 누설 팩터 (ε₂) 가 주어지는 경우 공개 데이터 (X₂) 에 대한 프라이버시 보존 맵핑 (P_Y2|X2) 을 설계한다.

유사하게, 도 3 에서, 우리는 공모 또는 구성을 고려하여 단일의 비공개 데이터 및 2 개의 공개 데이터를 고려하는 프라이버시 보존 맵핑들을 결정하는 방법 (300) 을 논의한다. 2 개의 비공개 데이터가 존재하는 경우, 방법 (300) 은 일부 변경들이 적용될 수 있다. 구체적으로는, 단계 (310) 에서, 우리는 S_1, S₂, X₁및 X₂에 기초하여 통계 정보를 수집한다. 단계 (330) 에서, 우리는 I(S₁;Y₁) 에 대한 누설 팩터 (ε) 가 주어지는 경우 공개 데이터 (X₁) 에 대한 프라이버시 보존 맵핑 (P_Y1|X1) 을 설계한다. 단계 (335) 에서, 우리는 I(S₂;Y₂) 에 대한 누설 팩터 (ε) 가 주어지는 경우 공개 데이터 (X₂) 에 대한 프라이버시 보존 맵핑 (P_Y2|X2) 을 설계한다.

위에서, 우리는 2 개의 비공개 데이터 또는 2 개의 공개 데이터에 대해 논의한다. 본 원리들은 또한 3 개 이상의 비공개 또는 공개 데이터가 존재하는 경우에 적용될 수 있다.

프라이버시 에이전트는 사용자에게 프라이버시 서비스를 제공하는 엔티티이다. 프라이버시 에이전트는 다음 중 어느 것을 수행할 수도 있다:

- 사용자로부터 그가 어떤 데이터를 비공개로 생각하는지, 그가 어떤 데이터를 공개로 생각하는지, 및 그가 어떤 레벨의 프라이버시를 원하는지를 수신;

- 프라이버시 보존 맵핑을 컴퓨팅;

- 사용자에 대한 프라이버시 보존 맵핑을 구현 (즉, 맵핑에 따라 그의 데이터를 왜곡); 및

- 예를 들어 서비스 제공자 또는 데이터 수집 에이전시로 왜곡된 데이터를 방출.

본 원리들은 사용자 데이터의 프라이버시를 보호하는 프라이버시 에이전트에서 사용될 수 있다. 도 4 는 프라이버시 에이전트가 사용될 수 있는 예시적인 시스템 (400) 의 블록도를 도시한다. 공개 사용자들 (410) 은 그들의 비공개 데이터 (S) 및/또는 공개 데이터 (X) 를 방출한다. 이전에 논의된 바와 같이, 공개 사용자들은 공개 데이터를 있는 그대로, 즉 Y = X 로 방출할 수도 있다. 공개 사용자들에 의해 방출된 정보는 프라이버시 에이전트에게 유용한 통계 정보가 된다.

프라이버시 에이전트 (480) 는 통계 수집 모듈 (420), 프라이버시 보존 맵핑 결정 모듈 (430), 및 프라이버시 보존 모듈 (440) 을 포함한다. 통계 수집 모듈 (420) 은 결합 분포 (P_S,X), 주변적 확률 측정 (P_X), 및/또는 공개 데이터의 평균 및 공분산을 수집하기 위해 사용될 수도 있다. 통계 수집 모듈 (420) 은 또한 bluekai.com 과 같은 데이터 어그리게이터들 (aggregators) 로부터 통계를 수신할 수도 있다. 이용가능한 통계 정보에 따라, 프라이버시 보존 맵핑 결정 모듈 (430) 은 수개의 프라이버시 보존 맵핑 메카니즘들을 설계한다. 프라이버시 보존 모듈 (440) 은 조건적 확률에 따라, 비공개 사용자 (460) 의 공개 데이터를 그것이 방출되기 전에 왜곡시킨다. 공개 데이터가 다중 차원일 때, 예를 들어, X 가 X₁ 및 X₂ 양자를 포함할 때, 프라이버시 보존 모듈은 구성을 고려하여, 각각 X₁ 및 X₂ 에 대한 별개의 프라이버시 보존 맵핑들을 설계할 수도 있다. 공모가 존재하는 경우, 각각의 공모 엔티티는 별개의 프라이버시 보존 맵핑을 설계하기 위해 시스템 (400) 을 사용할 수도 있다.

프라이버시 에이전트는 데이터 수집 모듈에서 수집되었고 통계를 컴퓨팅하도록 허용되는 전체 데이터에 대한 지식 없이 작업하기 위해 통계만을 필요로한다는 것을 유의하라. 따라서, 다른 실시형태에서, 데이터 수집 모듈은 데이터를 수집하고 그 후 통계를 컴퓨팅하며, 프라이버시 에이전트의 부분일 필요가 없는 독립형 모듈일 수 있을 것이다. 데이터 수집 모듈은 프라이버시 에이전트와 통계를 공유한다.

프라이버시 에이전트는 사용자와 사용자 데이터의 수신자 (예를 들어, 서비스 제공자) 사이에 위치된다. 예를 들어, 프라이버시 에이전트는 사용자 디바이스, 예를 들어 컴퓨터, 또는 셋-톱 박스 (STB) 에 위치될 수도 있다. 다른 예에서, 프라이버시 에이전트는 별개의 엔티티일 수도 있다.

프라이버시 에이전트의 모든 모듈들은 하나의 디바이스에 위치될 수도 있고, 또는 상이한 디바이스들 상에 분포될 수도 있으며, 예를 들어, 통계 수집 모듈 (420) 은 모듈 (430) 로 통계만을 방출하는 데이터 어그리게이터에 위치될 수도 있고, 프라이버시 보존 맵핑 결정 모듈 (430) 은 "프라이버시 서비스 제공자" 에 또는 모듈 (420) 에 연결된 사용자 디바이스상의 사용자 엔드 (end) 에 위치될 수도 있으며, 프라이버시 보존 모듈 (440) 은 사용자와, 사용자가 데이터를 방출하기 원하는 서비스 제공자 사이의 중개자로서 작용하는 프라이버시 서비스 제공자에, 또는 사용자 디바이스 상의 사용자 엔드에 위치될 수도 있다.

프라이버시 에이전트는, 비공개 사용자 (460) 가 방출된 데이터에 기초하여 수신된 서비스를 향상시키기 위해, 서비스 제공자, 예를 들어 컴캐스트 또는 넷플릭스로 방출된 데이터를 제공할 수도 있으며, 예를 들어, 추천 시스템은 그것의 방출된 영화 랭킹들에 기초하여 사용자에게 영화 추천들을 제공한다.

도 5 에서, 우리는 시스템에 다수의 프라이버시 에이전트들이 존재하는 것을 보여준다. 상이한 변형들에서, 그것은 프라이버시 시스템이 작동할 요건이 아니기 때문에 어디에나 프라이버시 에이저트들이 존재할 필요는 없다. 예를 들어, 사용자 디바이스에, 또는 서비스 제공자에, 또는 양자 모두에 프라이버시 에이전트만이 존재할 수 있을 것이다. 도 5 에서, 우리는 넷플릭스 및 페이스북 양자 모두에 대해 동일한 프라이버시 에이전트 "C" 를 보여준다. 다른 실시형태에서, 페이스북 및 넷플릭스에서의 프라이버시 에이전트들은 동일할 수 있지만, 동일할 필요는 없다.

여기에 기술된 구현들은 예를 들어, 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림, 또는 신호에서 구현될 수도 있다. 단일의 형태의 구현의 콘텍스트에서만 논의 (예를 들어, 방법으로서만 논의) 될지라도, 논의된 특징들의 구현은 또한 다른 형태들 (예를 들어, 장치 또는 프로그램) 로 구현될 수도 있다. 장치는, 예를 들어 적절한 하드웨어, 소프트웨어, 및 펌웨어로 구현될 수도 있다. 방법들은 예를 들어 컴퓨터, 마이크로프로세서, 집적회로, 또는 프로그램가능 로직 디바이스를 포함하는, 일반적으로 프로세싱 디바이스들로 지칭되는 예를 들어 프로세서와 같은 장치에서 구현될 수도 있다. 프로세서들은 또한 예를 들어 컴퓨터들, 셀 폰들, 휴대용/개인용 디지털 보조기들 ("PDAs"), 엔드-유저들 사이의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.

본 원리들의 "하나의 실시형태" 또는 "실시형태" 또는 "하나의 구현" 또는 "구현" 뿐아니라 그의 다른 변형들에 대한 참조는 그 실시형태와 관련하여 기술된 특정의 피쳐, 구조, 특징 등이 본 원리들의 적어도 하나의 실시형태에 포함된다는 것을 의미한다. 따라서, 명세서 전체에 걸쳐 여러 곳들에 나타나는 어구 "하나의 실시형태에서" 또는 "실시형태에서" 또는 "하나의 구현에서" 또는 "구현에서" 뿐아니라 임의의 다른 변형들의 출현들은 반드시 모두 동일한 실시형태를 지칭하지는 않는다.

또, 본 출원 또는 그의 청구범위는 여러 피스들의 정보를 "결정하는 것" 을 언급할 수도 있다. 정보를 결정하는 것은 예를 들어 정보를 추정하는 것, 정보를 계산하는 것, 정보를 예측하는 것, 또는 메모리로부터 정보를 취출하는 것 중 하나 이상을 포함할 수도 있다.

또한, 본 출원 또는 그의 청구범위는 여러 피스들의 정보를 "액세스하는 것" 을 언급할 수도 있다. 정보를 액세스하는 것은 예를 들어 정보를 수신하는 것, (예를 들어, 메모리로부터) 정보를 취출하는 것, 정보를 저장하는 것, 정보를 프로세싱하는 것, 정보를 송신하는 것, 정보를 이동시키는 것, 정보를 카피하는 것, 정보를 소거하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것 중 하나 이상을 포함할 수도 있다.

또, 본 출원 또는 그의 청구범위는 여러 피스들의 정보를 "수신하는 것" 을 언급할 수도 있다. 수신하는 것은, "액세스하는 것" 에서와 같이, 넓은 용어인 것으로 의도된다. 정보를 수신하는 것은 예를 들어 정보를 액세스하는 것, 또는 (예를 들어, 메모리로부터) 정보를 취출하는 것 중 하나 이상을 포함할 수도 있다. 또한, "수신하는 것" 은 통상 예를 들어 정보를 저장하는 것, 정보를 프로세싱하는 것, 정보를 송신하는 것, 정보를 이동시키는 것, 정보를 카피하는 것, 정보를 소거하는 것, 정보를 계산하는 것, 정보를 결정하는 것, 정보를 예측하는 것, 또는 정보를 추정하는 것과 같은 동작들 중에 하나의 방식으로 또는 다른 방식으로 수반된다.

본 기술에서 통상의 지식을 가진자에게 분명한 바와 같이, 구현들은 예를 들어 저장 또는 송신될 수도 있는 정보를 반송하도록 포맷된 다양한 신호들을 생성할 수도 있다. 정보는 예를 들어 방법을 수행하는 명령들, 또는 기술된 구현들 중 하나에 의해 생성된 데이터를 포함할 수도 있다. 예를 들어, 신호는 기술된 실시형태의 비트스트림을 반송하도록 포맷될 수도 있다. 그러한 신호는 예를 들어 (예를 들어, 스펙트럼의 무선 주파수 부분을 사용하여) 전자기파로서 또는 기저대역 신호로서 포맷될 수도 있다. 포맷하는 것은 예를 들어 데이터 스트림을 인코딩하는 것 및 그 인코딩된 데이터 스트림으로 캐리어를 변조하는 것을 포함할 수도 있다. 신호가 반송하는 정보는 예를 들어 아날로그 또는 디지털 정보일 수도 있다. 신호는 알려진 바와 같이 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수도 있다. 신호는 프로세서 판독가능 매체상에 저장될 수도 있다.

Claims

사용자에 대한 사용자 데이터를 프로세싱하는 방법으로서,
비공개 데이터, 제 1 공개 데이터 및 제 2 공개 데이터를 포함하는 사용자 데이터를 액세스하는 단계로서, 상기 제 1 공개 데이터는 제 1 카테고리의 데이터에 대응하고, 상기 제 2 공개 데이터는 제 2 카테고리의 데이터에 대응하는, 상기 사용자 데이터를 액세스하는 단계;
상기 비공개 데이터와 제 1 및 제 2 방출된 데이터 사이의 제 1 정보 누설 바운드 (bound) 를 결정하는 단계 (220, 320);
상기 제 1 정보 누설 바운드에 응답하여, 상기 비공개 데이터와 상기 제 1 방출된 데이터 사이의 제 2 정보 누설 바운드, 및 상기 비공개 데이터와 상기 제 2 방출된 데이터 사이의 제 3 정보 누설 바운드를 결정하는 단계;
상기 제 2 정보 누설 바운드에 응답하여 상기 제 1 카테고리의 데이터를 상기 제 1 방출된 데이터에 맵핑하는 제 1 프라이버시 보존 맵핑 및 상기 제 3 정보 누설 바운드에 응답하여 상기 제 2 카테고리의 데이터를 상기 제 2 방출된 데이터에 맵핑하는 제 2 프라이버시 보존 맵핑을 결정하는 단계 (230, 235, 330, 335);
상기 제 1 및 제 2 방출된 데이터를 형성하기 위해, 각각 상기 제 1 및 제 2 프라이버시 보존 맵핑들에 기초하여, 상기 사용자에 대한 상기 제 1 및 제 2 공개 데이터를 변경하는 단계 (240, 245, 340, 345); 및
서비스 제공자 및 데이터 수집 에이전시 중 적어도 하나로 변경된 상기 제 1 및 제 2 공개 데이터를 방출하는 단계 (250, 255, 350, 355) 를 포함하는, 사용자 데이터를 프로세싱하는 방법.
제 1 항에 있어서,
상기 제 2 정보 누설 바운드 및 상기 제 3 정보 누설 바운드의 결합은 실질적으로 상기 제 1 정보 누설 바운드에 대응하는, 사용자 데이터를 프로세싱하는 방법.
제 1 항에 있어서,
상기 제 2 정보 누설 바운드 및 상기 제 3 정보 누설 바운드 각각은 실질적으로 상기 제 1 정보 누설 바운드와 동일한, 사용자 데이터를 프로세싱하는 방법.
제 1 항에 있어서,
상기 방출하는 단계는 제 1 수신자에게 변경된 상기 제 1 공개 데이터를 방출하고, 제 2 수신자에게 변경된 상기 제 2 공개 데이터를 방출하며,
상기 제 1 및 제 2 수신자들은 변경된 상기 제 1 및 제 2 공개 데이터에 대한 정보를 교환하도록 구성되는, 사용자 데이터를 프로세싱하는 방법.
제 1 항에 있어서,
상기 방출하는 단계는 변경된 상기 제 1 및 제 2 공개 데이터를 동일한 수신자에게 방출하는, 사용자 데이터를 프로세싱하는 방법.
제 1 항에 있어서,
공모 또는 구성이 서비스 제공자 및 데이터 수집 에이전시 중 상기 적어도 하나에서 발생하는지 여부를 결정하는 단계를 더 포함하는, 사용자 데이터를 프로세싱하는 방법.
제 1 항에 있어서,
상기 제 1 및 제 2 프라이버시 보존 맵핑들을 결정하는 상기 단계들은 최대 상관 기법들에 기초하는, 사용자 데이터를 프로세싱하는 방법.
제 1 항에 있어서,
상기 비공개 데이터는 제 1 비공개 데이터 및 제 2 비공개 데이터를 포함하고,
상기 제 2 정보 누설 바운드를 결정하는 단계는 상기 제 1 비공개 데이터와 상기 제 1 공개 데이터 사이의 상기 제 2 정보 누설 바운드 및 상기 제 2 비공개 데이터와 상기 제 2 공개 데이터 사이의 상기 제 3 정보 누설 바운드를 결정하는, 사용자 데이터를 프로세싱하는 방법.
사용자에 대한 사용자 데이터를 프로세싱하는 장치로서,
비공개 데이터, 제 1 공개 데이터 및 제 2 공개 데이터를 포함하는 사용자 데이터를 액세스하도록 구성된 프로세서로서, 상기 제 1 공개 데이터는 제 1 카테고리의 데이터에 대응하고, 상기 제 2 공개 데이터는 제 2 카테고리의 데이터에 대응하는, 상기 프로세서;
프라이버시 보존 맵핑 결정 모듈 (430) 로서,
상기 비공개 데이터와 제 1 및 제 2 방출된 데이터 사이의 제 1 정보 누설 바운드 (bound) 를 결정하고,
상기 제 1 정보 누설 바운드에 응답하여, 상기 비공개 데이터와 상기 제 1 방출된 데이터 사이의 제 2 정보 누설 바운드, 및 상기 비공개 데이터와 상기 제 2 방출된 데이터 사이의 제 3 정보 누설 바운드를 결정하며;
상기 제 2 정보 누설 바운드에 응답하여 상기 제 1 카테고리의 데이터를 상기 제 1 방출된 데이터에 맵핑하는 제 1 프라이버시 보존 맵핑 및 상기 제 3 정보 누설 바운드에 응답하여 상기 제 2 카테고리의 데이터를 상기 제 2 방출된 데이터에 맵핑하는 제 2 프라이버시 보존 맵핑을 결정하도록 구성된, 상기 프라이버시 보존 맵핑 결정 모듈 (430); 및
프라이버시 보존 모듈 (440) 로서,
상기 제 1 및 제 2 방출된 데이터를 형성하기 위해, 각각 상기 제 1 및 제 2 프라이버시 보존 맵핑들에 기초하여, 상기 사용자에 대한 상기 제 1 및 제 2 공개 데이터를 변경하고,
서비스 제공자 및 데이터 수집 에이전시 중 적어도 하나로 변경된 상기 제 1 및 제 2 공개 데이터를 방출하도록 구성된, 상기 프라이버시 보존 모듈 (440) 을 포함하는, 사용자 데이터를 프로세싱하는 장치.
제 9 항에 있어서,
상기 제 2 정보 누설 바운드 및 상기 제 3 정보 누설 바운드의 결합은 실질적으로 상기 제 1 정보 누설 바운드에 대응하는, 사용자 데이터를 프로세싱하는 장치.
제 9 항에 있어서,
상기 제 2 정보 누설 바운드 및 상기 제 3 정보 누설 바운드 각각은 실질적으로 상기 제 1 정보 누설 바운드와 동일한, 사용자 데이터를 프로세싱하는 장치.
제 9 항에 있어서,
상기 프라이버시 보존 모듈 (440) 은 제 1 수신자에게 변경된 상기 제 1 공개 데이터를 방출하고, 제 2 수신자에게 변경된 상기 제 2 공개 데이터를 방출하며,
상기 제 1 및 제 2 수신자들은 변경된 상기 제 1 및 제 2 공개 데이터에 대한 정보를 교환하도록 구성되는, 사용자 데이터를 프로세싱하는 장치.
제 9 항에 있어서,
상기 프라이버시 보존 모듈 (440) 은 변경된 상기 제 1 및 제 2 공개 데이터를 동일한 수신자에게 방출하는, 사용자 데이터를 프로세싱하는 장치.
제 9 항에 있어서,
상기 프라이버시 보존 맵핑 결정 모듈 (430) 은 또한 공모 또는 구성이 서비스 제공자 및 데이터 수집 에이전시 중 상기 적어도 하나에서 발생하는지 여부를 결정하도록 구성되는, 사용자 데이터를 프로세싱하는 장치.
제 9 항에 있어서,
상기 프라이버시 보존 맵핑 결정 모듈 (430) 은 최대 상관 기법들에 기초하여 상기 제 1 및 제 2 프라이버시 보존 맵핑들을 결정하는, 사용자 데이터를 프로세싱하는 장치.
제 9 항에 있어서,
상기 비공개 데이터는 제 1 비공개 데이터 및 제 2 비공개 데이터를 포함하고,
상기 프라이버시 보존 맵핑 결정 모듈 (430) 은 상기 제 1 비공개 데이터와 상기 제 1 공개 데이터 사이의 상기 제 2 정보 누설 바운드 및 상기 제 2 비공개 데이터와 상기 제 2 공개 데이터 사이의 상기 제 3 정보 누설 바운드를 결정하는, 사용자 데이터를 프로세싱하는 장치.
제 1 항 내지 제 8 항 중 어느 한 항에 따라, 사용자에 대한 사용자 데이터를 프로세싱하기 위한 명령들을 저장한 컴퓨터 판독가능 저장 매체.