KR20150143423A

KR20150143423A - 프라이버시 보호 능형 회귀

Info

Publication number: KR20150143423A
Application number: KR1020157024118A
Authority: KR
Inventors: 발레리아 니콜라엔코; 에후드 바인스베르그; 에프스트라티오스 이오아니디스; 마르끄 좌; 니나 앤 타프트
Original assignee: 톰슨 라이센싱
Priority date: 2013-03-04
Filing date: 2013-09-25
Publication date: 2015-12-23
Also published as: CN105814832A; JP2016512612A; KR20150123823A; TW201448552A; WO2014137394A1; US20150381349A1; WO2014137392A1; EP2965461A1; EP2965462A1; US20160036584A1; KR20160002697A; JP2016512611A; TW201448550A; JP2016510908A; WO2014137393A1; EP2965463A1; TW201448551A; US20160020898A1

Abstract

호모모픽 암호화 및 야오 가블드 회로 둘 다를 사용하는 프라이버시 보호 능형 회귀의 하이브리드 방법이 제시된다. 시스템 내의 사용자들은 선형 호모모픽 암호화 하에서 암호화된 그들의 데이터를 제출한다. 선형 호모모피즘은 단지 선형 연산들만을 요구하는 알고리즘의 제1 페이즈를 수행하는 데 사용된다. 이 페이즈의 출력은 사용자들의 수 n에 독립인 형태로, 암호화된 데이터를 생성한다. 제2 페이즈에서, 먼저 호모모픽 암호화를 구현하고 다음에 회귀 알고리즘(도시한 바와 같이, 최적화된 실현은 가블드 회로 내의 복호화를 피할 수 있다)의 나머지를 행하는 야오 가블드 회로가 평가된다. 이 단계 동안에 야오 가블드 회로 방법은 현재의 완전한 호모모픽 암호화 체계들보다 훨씬 더 빠르다. 그러므로 대량 데이터 집합을 처리하기 위해 선형 호모모피즘을 사용하고 계산의 심한 비선형 부분을 위해서는 가블드 회로를 사용함으로써 양쪽 월드의 최상이 얻어질 수 있다.

Description

프라이버시 보호 능형 회귀{PRIVACY-PRESERVING RIDGE REGRESSION}

관련 출원들에 대한 참조

본원은 그 전체가 본 명세서에 참고로 도입된, 2013년 3월 4일자 출원된 미국 가출원 번호 61/772,404호의 우선권을 주장한다.

본원은 동시에 출원되고 그 전체가 본 명세서에 참고로 도입된 "PRIVACY-PRESERVING RIDGE REGRESSION USING MASKS", 및 "PRIVACY-PRESERVING RIDGE REGRESSION USING PARTIALLY HOMOMORPHIC ENCRYPTION AND MASKS"라고 하는 출원들과 또한 관련된다.

본 발명은 일반적으로 데이터 마이닝 및 보다 구체적으로 능형 회귀를 사용하는 데이터 마이닝 시 프라이버시 보호에 관한 것이다.

추천 시스템들은 여러 가지의 아이템들에 대한 많은 사용자들의 선호와 평을 수집하고 그 데이터에 대해 학습 알고리즘을 실행함으로써 동작한다. 학습 알고리즘은 새로운 사용자가 소정의 아이템들을 어떻게 평하는지를 예측하는 데 사용될 수 있는 모델을 생성한다. 특히, 사용자가 소정의 아이템들에 대해 내린 평이 주어지는 경우에, 모델은 사용자가 다른 아이템들을 어떻게 평하는지를 예측할 수 있다. 이러한 예측 모델들을 생성하기 위한 많은 일련의 알고리즘들이 있고 많은 것들은 Amazon 및 Netflix와 같은 대형 사이트들에서 실제로 사용된다. 학습 알고리즘들은 또한 대량의 의료 데이터베이스, 금융 데이터, 및 많은 다른 영역들 상에서 사용된다.

현재의 구현들에서, 학습 알고리즘은 예측 모델을 구축하기 위해 평문으로 모든 사용자 데이터를 보아야 한다. 본 개시에서 학습 알고리즘이 평문의 데이터없이 동작할 수 있는지가 결정됨으로써, 사용자들이 그들의 데이터의 제어를 유지하는 것이 가능하다. 의료 데이터를 위해 이것은 모델이 사용자 프라이버시를 침해하지 않고 구축되게 할 수 있다. 책과 영화 선호도를 위해 사용자가 그들의 데이터를 계속 지배하고 있으면 서비스 제공자에서의 데이터 단절의 경우에 앞으로 예기치 않은 곤란한 상황이 될 우려가 감소된다. 대체로, 개인 사용자 데이터를 마이닝하는 3가지 기존의 방법이 있다. 첫째는 사용자들이 비밀 분산을 사용하여 다중 서버들 간에 그들의 데이터를 분리하는 것이다. 이들 서버는 다음에 분배된 프로토콜을 사용하여 학습 알고리즘을 실행하고 프라이버시는 대부분의 서버들이 공모하지 않는 한 보장된다. 두번째는 학습 알고리즘이 암호화된 데이터 상에서 실행되고 신뢰된 제3자가 최종 암호화된 모델을 단지 복호화하기 위해 신뢰되는 완전한 호모모픽(homomorphic) 암호화에 기초한 것이다. 세번째 방법에서는 야오의 가블드 회로(Yao's garbled circuit) 구성이 암호화된 데이터 상에서 계산하고 사용자 데이터에 관해 다른 어떤 것을 학습하지 않고 최종 모델을 얻는 데 사용될 수 있었다. 그러나, 야오에 기초한 방법은 이전의 알고리즘들의 회귀 부류에 적용되지 않았다.

호모모픽 암호화와 야오 가블드 회로 둘 다를 사용한 프라이버시 보호 능형 회귀의 하이브리드 방법이 제시된다. 시스템 내의 사용자들은 Paillier 또는 Regev와 같은 선형 호모모픽 암호화 시스템하에서 암호화된 그들의 데이터를 제출한다. 평가기는 선형 호모모피즘을 사용하여 단지 선형 연산들만 요구하는 알고리즘의 제1 페이즈(phase)를 수행한다. 이 페이즈는 암호화된 데이터를 생성한다. 이 제1 페이즈에서, 시스템은 많은 수의 레코드(시스템 내의 사용자들의 수 n에 비례함)를 처리하는 것이 요청된다. 이 제1 페이즈에서의 처리는 알고리즘의 제2 페이즈가 n에 독립이도록 데이터를 준비한다. 제2 페이즈에서, 평가기는 먼저 호모모픽 복호화를 구현하고 다음에 회귀 알고리즘의 나머지를 구현하는 야오 가블드 회로를 평가한다(도시한 바와 같이, 최적화된 실현은 가블드 회로 내의 복호화를 피할 수 있다). 회귀 알고리즘의 이 단계는 빠른 선형 시스템 솔버(solver)를 필요로 하고 상당히 비선형이다. 이 단계 동안에 야오 가블드 회로 방법은 현재의 완전한 호모모픽 암호화 체계보다 훨씬 더 빠르다. 그러므로 대량 데이터 집합을 처리하기 위해 선형 호모모픽을 사용하고 계산의 심한 비선형 부분을 위해 가블드 회로를 사용함으로써 양쪽 월드의 최상이 얻어진다. 제2 페이즈는 또한 계산이 2개의 페이즈로 분리되는 방식으로 인해 n에 독립이다.

한 실시예에서 프라이버시 보호 능형 회귀를 위한 방법이 제공된다. 이 방법은 암호화 서비스 제공자에게 가블드 회로를 요구하는 단계; 호모모픽 암호화를 사용하여 포맷되고 암호화된 데이터를 다중 사용자들로부터 수집하는 단계; 호모모픽 암호화를 사용하여 포맷되고 암호화된 데이터를 합산하는 단계; 및 불확정 전송(oblivious transfer)을 사용하여 합산된 데이터로 암호화 서비스 제공자로부터의 가블드 회로를 평가하는 단계를 포함한다.

다른 실시예에서 프라이버시 보호 능형 회귀를 위한 컴퓨팅 장치가 제공된다. 이 컴퓨팅 장치는 저장부, 메모리, 및 프로세서를 포함한다. 저장부는 사용자 데이터를 저장하기 위한 것이다. 메모리는 처리하기 위한 데이터를 저장하기 위한 것이다. 프로세서는 암호화 서비스 제공자에게 가블드 회로를 요구하고, 호모모픽 암호화를 사용하여 포맷되고 암호화된 데이터를 다중 사용자들로부터 수집하고, 호모모픽 암호화를 사용하여 포맷되고 암호화된 데이터를 합산하고, 불확정 전송을 사용하여 합산된 데이터로 암호화 서비스 제공자로부터의 가블드 회로를 평가하도록 구성된다.

목적들 및 장점들은 청구항들에서 특정하게 지칭되는 요소들 및 연결들에 의해 실현되고 달성될 것이다. 개시된 실시예들은 본 명세서의 혁신적인 교시들의 많은 유리한 사용들의 단지 예시들이라는 점에 주목하는 것이 중요하다. 전술한 일반적인 설명 및 후술하는 상세한 설명은 모두 예시적이고, 설명하기 위한 것이며, 청구된 것과 같은, 본 발명을 제한하는 것이 아님이 이해될 것이다. 또한, 일부 서술들은 일부 발명적 특징들에 적용될 수 있지만 다른 것들에는 그렇지 않을 수 있다. 일반적으로, 달리 표시되지 않은 한, 일반성의 손실 없이, 단수의 요소들은 복수일 수 있고, 그 반대도 가능할 것이다. 도면들에서, 유사한 참조 번호들은 몇몇 도시들을 통해 유사한 부분들을 지칭한다.

도 1은 실시예에 따른 프라이버시 보호 능형 회귀의 블럭 개략도를 도시한다.
도 2는 실시예에 따른 컴퓨팅 장치의 블럭 개략도를 도시한다.
도 3은 실시예에 따른 예시적인 가블드 회로를 도시한다.
도 4는 실시예에 따른 프라이버시 보호 능형 회귀를 제공하는 방법의 하이레벨 흐름도를 도시한다.
도 5는 실시예에 따른 프라이버시 보호 능형 회귀를 제공하는 제1 프로토콜의 동작을 도시한다.
도 6은 실시예에 따른 프라이버시 보호 능형 회귀를 제공하는 제2 프로토콜의 동작을 도시한다.
도 7은 실시예에 따른 콜레스키 분해(Cholesky decomposition)를 위한 알고리즘의 예시적인 실시예를 도시한다.

본 개시의 초점은 많은 학습 알고리즘들에서 사용된 기본적 메커니즘, 즉 능형 회귀에 두고 있다. 고차원의 많은 수들의 점이 주어지는 경우에 회귀 알고리즘은 이들 점을 통하는 최적합 곡선을 발생한다. 그 목적은 사용자 데이터 또는 사용자 데이터에 관한 어떤 정보를 노출하지 않고 계산을 수행하는 것이다. 이것은 도 1에 도시한 것과 같은 시스템을 사용함으로써 달성된다:

도 1에서, 프라이버시 보호 능형 회귀를 구현하는 시스템(100)의 실시예의 블럭도가 제공된다. 시스템은 서로 통신하는 평가기(110), 하나 이상의 사용자들(120) 및 암호화 서비스 제공자(CSP)(130)를 포함한다. 평가기(110)는 서버 또는 퍼스널 컴퓨터(PC)와 같은 컴퓨팅 장치 상에서 구현된다. CSP(130)는 서버 또는 퍼스널 컴퓨터와 같은 컴퓨터 장치 상에서 유사하게 구현되고 이더넷(Ethernet) 또는 와이파이 네트워크와 같은 네트워크를 통해 평가기(110)와 통신한다. 하나 이상의 사용자들(120)은 퍼스널 컴퓨터, 태블릿, 스마트폰과 같은 컴퓨팅 장치를 통해 평가기(110) 및 CSP(130)와 통신한다.

사용자들(120)은 (예를 들어, PC로부터의) 암호화된 데이터를 학습 알고리즘을 실행하는 (예를 들어, 서버 상에 있는) 평가기(110)에 보낸다. 소정의 점들에서 평가기는 평가기(110)와 공모하지 않도록 신뢰된 (다른 서버 상에 있는) 암호화 서비스 제공자(130)와 상호작용할 수 있다. 마지막 결과는 평문 예측 모델 β(140)이다.

도 2는 프라이버시 보호 능형 회귀를 위한 다양한 방법 및 시스템 요소들을 구현하는 데 사용될 수 있는 서버, PC, 태블릿, 또는 스마트폰과 같은, 예시적인 컴퓨팅 장치(200)를 도시한다. 컴퓨팅 장치(200)는 하나 이상의 프로세서(210), 메모리(220), 저장부(230), 및 네트워크 인터페이스(240)를 포함한다. 이들 요소 각각은 아래에 더 상세히 논의될 것이다.

프로세서(210)는 전자 서버(200)의 동작을 제어한다. 프로세서(200)는 서버를 동작시킬 뿐만 아니라 콜드 스타트 추천의 기능을 제공하는 소프트웨어를 실행한다. 프로세서(210)는 메모리(220), 저장부(230), 및 네트워크 인터페이스(240)에 접속되고, 이들 요소 간의 정보의 전달 및 처리를 담당한다. 프로세서(210)는 범용 프로세서 또는 특정 기능을 위해 전용된 프로세서일 수 있다. 소정의 실시예들에서 다중 프로세서들이 있을 수 있다.

메모리(220)는 프로세서에 의해 실행될 명령 또는 데이터가 저장되는 곳이다. 메모리(210)는 휘발성 메모리(RAM), 비휘발성 메모리(EEPROM), 또는 다른 적합한 매체를 포함할 수 있다.

저장부(230)는 본 발명의 콜드 저장 추천 방법을 실행하는데 있어서 프로세서에서 사용되고 발생된 데이터가 저장되는 곳이다. 저장부는 자기 매체(하드 드라이브), 광학 매체(CD/DVD-Rom), 또는 플래시 기반 저장부일 수 있다.

네트워크 인터페이스(240)는 네트워크를 통해 다른 장치들과의 서버(200)의 통신을 담당한다. 적합한 네트워크의 예는 이더넷 네트워크이다. 다른 유형들의 적합한 홈 네트워크들이 본 개시의 이득이 주어지는 경우 본 기술의 통상의 기술자에게 명백할 것이다.

도 2에서 기술된 요소들은 예시적이라는 것을 이해하여야 한다. 서버(200)는 임의 수의 요소를 포함할 수 있고 소정의 요소들은 다른 요소들의 기능의 일부 또는 모두를 제공할 수 있다. 다른 가능한 구현이 본 개시의 이득이 주어지는 경우 본 기술의 통상의 기술자에게 명백할 것이다.

설정 및 위협 모델

A. 아키텍처 및 실체들

도 1을 다시 참조하면, 시스템(100)은 데이터를 평가기(110)라고 하는 중앙 서버에 제공하기 위해 많은 사용자들(120)을 위해 설계된다. 평가기(110)는 제공된 데이터에 대해 회귀를 수행하고 나중에 예측 및 추천 태스크들을 위해 사용될 수 있는 모델, β(140)를 생성한다. 보다 구체적으로, 각각의 사용자 i=1;:::;n은 2개의 변수들

및

를 포함하는 개인 레코드이고, 평가기는

이도록 모델

을 계산하기를 원한다. 이 목적은 평가기가 회귀 알고리즘의 최종 결과인 β(140)에 의해 노출된 것을 넘어선 사용자의 레코드에 관해 아무것도 학습하지 않는 것을 보장하는 것이다. 시스템을 초기화하기 위해 그것의 오프라인 작업의 대부분을 하는, 여기서 "암호화 서비스 제공자"라고 하는 제3자가 필요하다.

보다 정확하게, 시스템 내의 당사자들은 도 1에 도시한 바와 같이, 다음과 같다.

· 사용자들(120): 각각의 사용자 i는 그것이 평가기(110)에 암호화된 것을 보내는 개인 데이터 x_i, y_i를 갖는다.

· 평가기(110): 암호화된 데이터에 대해 회귀 알고리즘을 실행하고 평문으로 학습된 모델 β(140)를 얻는다.

· 암호화 서비스 제공자(CSP)(130): 사용자들(120) 및 평가기(110)에 셋업 파라미터들을 줌으로써 시스템(100)을 초기화한다.

CSP(130)는 사용자들(120)이 그들의 데이터를 평가기(110)에 제공하기 오래전에 그것의 오프라인 작업의 대부분을 한다. 가장 효율적인 설계에서, CSP(130)는 평가기(110)가 모델 β(140)를 계산할 때 짧은 1회 온라인 단계를 위해 또한 필요하다.

B. 위협 모델

이 목적은 평가기(110) 및 CSP(130)가 학습 알고리즘의 최종 결과들에 의해 노출된 것을 넘어선 사용자들(120)에 의해 제공된 레코드에 관해 아무것도 학습할 수 없는 것을 보장하는 것이다. 평가기(110)가 사용자들(120) 중 일부와 공모하는 경우에, 사용자들(120)은 학습 알고리즘의 결과들에 의해 노출된 것을 넘어선 다른 사용자들(120)에 의해 제공된 데이터에 관해 아무것도 학습하지 않아야 한다.

이 예에서, 이것은 올바른 모델 β(140)를 생성하는 것이 평가기(110)의 최대 관심이라는 것이 가정된다. 그러므로, 이 실시예는 올바르지 않은 결과를 생성하려고 계산을 붕괴하기를 시도하는 악의적인 평가기(110)와 관련되는 것은 아니다. 그러나, 평가기(110)는 사용자들(120)에 의해 제공된 개인 데이터에 관한 정보를 악용하고 학습하는 것이 자극되는데 왜냐하면 이 데이터는 잠재적으로 다른 당사자들, 예를 들어, 광고자들에게 팔릴 수 있기 때문이다. 그러므로, 악의적인 평가기(110)조차도 학습 알고리즘의 결과들에 의해 노출된 것을 넘어선 사용자 데이터에 관해 아무것도 학습할 수 없어야 한다. 정직하지만 호기심이 많은(honest-but-curious) 평가기에 대해 단지 안전한 기본적인 프로토콜이 여기에 기술된다.

비위협: 이 시스템은 다음의 공격들에 대해 방어하도록 설계되지 않는다:

· 평가기(110) 및 CSP(130)는 공모하지 않는다는 것을 가정한다. 각각의 것이 위에 논의된 바와 같이 시스템을 파괴하기를 시도할 수 있지만, 그들은 독립적으로 그렇게 한다. 보다 정확하게, 보안성을 논할 때 이들 2개의 당사자들 중 많아야 하나가 악의적이라고 가정한다(이것은 고유한 요건인데 이것 없이는 보안이 달성될 수 없다).

· 셋업은 올바르게 작동하고, 즉 모든 사용자들(120)은 CSP(130)로부터 올바른 공개 키를 얻는다고 가정한다. 이것은 인증 기관의 적당한 사용으로 실제로 단속될 수 있다.

배경

A. 선형 모델의 학습

능형 회귀를 간략히 검토하면, 평가기(110)가 시스템(100)에서 수행하는 알고리즘은 β(140)를 학습하는 것이다. 아래에 논의된 모든 결과들은 고전적이고, 대분분 통계학 및 머신 학습 교과서에서 찾아볼 수 있다.

선형 회귀: n개의 입력 변수들의 집합

, 및 출력 변수들의 집합

이 주어지는 경우에,

이도록 함수

를 학습하는 문제가 회귀로서 알려져 있다. 예를 들어, 입력 변수들은 사람의 나이, 몸무게, 신체 질량 지수 등일 수 있고, 출력은 그들이 병에 걸릴 가능성일 수 있다.

실제 데이터로부터 이러한 함수를 학습한다는 것은 데이터 마이닝, 통계, 및 머신 학습에서 회귀를 유비쿼터스하게 하는 많은 흥미로운 응용들을 갖는다. 한편, 함수 자체는 예측을 위해, 즉 새로운 입력

의 출력 값 y를 예측하기 위해 사용될 수 있다. 더구나, f의 구조는 다른 입력들이 출력에 얼마나 영향을 주는 지를 식별하는 데 - 예를 들어, 나이보다는 오히려 몸무게가 병에 더 강력히 상관된다는 것을 설정하는 데 도움을 줄 수 있다.

선형 회귀는

가 선형 맵에 의해 잘 근사화된다는 전제에 기초하는데, 즉,

어떤

에 대해

이다.

선형 회귀는 과학적으로 추론 및 통계 분석을 위해 가장 폭넓게 사용된 방법들 중 하나이다. 또한, 이것은 커널 방법들과 같이, 통계적 분석 및 머신 학습에 있어서 몇가지 보다 진보된 방법들에 대한 기본적인 구축 블럭이다. 예를 들어, 차수 2의 다항식인 함수를 학습하는 것은

(1≤k, k'≤d)에 대한 선형 회귀로 감소하고; 동일한 원리가 기본 함수들의 유한 집합에 의해 걸쳐지는 임의의 함수를 학습하도록 일반화될 수 있다.

위에 언급된 바와 같이, 예측을 위한 그것의 분명한 사용을 넘어서, 벡터 β=(β_k)_k=1,...,d 는 그것이 y가 입력 변수들에 얼마나 의존하는지를 드러냄에 따라 관심 대상이다. 특히, 계수 β_k의 부호는 출력과의 양 또는 음의 상관을 표시하고, 크기는 상대적 중요성을 포착한다. 이들 계수가 비교할만한 것이고, 또한 수치적 안정성을 위해서도 그렇다는 것을 보장하기 위해, 입력 x_i는 동일한, 유한 영역(예를 들어, [-1; 1])으로 리스케일된다.

계수들의 계산: 벡터

를 계산하기 위해, 후자는

에 다음의 2차 함수를 최소화함으로써 그 데이터에 맞추어진다:

(1)

(1)을 최소화하는 절차를 능형 회귀라고 부르고; 목적 F(β)은 간결한 해들을 선호하는 페널티 항

를 병합한다. 직관적으로, λ= 0에 대해, (1)을 최소화하는 것은 간단한 최소 제곱 문제의 해를 구하는 것에 대응한다. 양의 λ> 0에 대해, 항

는 하이 놈(norm)으로 해들을 페널라이즈(penalize)하고: 데이터를 동일하게 맞추는 2개의 해들 사이에, 보다 적은 수의 큰 계수를 갖는 것이 선호된다. β의 계수들이 입력이 출력에 얼마나 영향을 주는지의 표시자인 것이라는 것을 상기하면, 이것은 "오컴의 면도날(Occam's razor)"의 형태로서 작용하고: 적은 수의 큰 계수를 갖는 보다 간단한 해들이 선호된다. 사실상, λ>0은 최소 제곱 해들이 기초한 것보다 새로운 입력들에 대해 실제로 더 양호한 효과를 준다.

는 출력들의 벡터이고

는 각 행에 하나씩, 입력 벡터들을 포함하는 행렬이라고 하면, 즉 다음과 같이 하자.

및

(1)의 최소화는 다음의 선형 시스템

Aβ=b (2)

(여기서 A=X^TX + λI 및 b=X^Ty)의 해를 구함으로써 계산될 수 있다. λ>0에 대해, 행렬 A는 대칭인 양의 정부호(positive definite)이고, 효율적인 해는 아래에 요약되는 바와 같은 콜레스키 분해를 사용하여 구해질 수 있다.

B. 야오의 가블드 회로

그것의 기본적 버전에서, 야오의 프로토콜(별칭으로는, 가블드 회로)은 반정직(semi-honest) 상대방의 존재시에 함수

의 2-당사자 평가를 가능하게 한다. 이 프로토콜은 입력 오너들 사이의 런이다(a_i는 사용자 i의 개인 입력을 표시한다). 프로토콜의 종료 시에,

의 값이 얻어지지만 어떤 당사자도 이 출력 값으로부터 노출된 것보다 많이 학습하지는 못한다.

프로토콜을 다음과 같이 진행한다. 가블러라고 하는 제1 당사자는

를 계산하는 회로의 "가블드" 버전을 구축한다. 가블러는 다음에 평가기라고 하는 제2 당사자에, a₁(및 오직 그것들)에 대응하는 가블드 회로 입력 값들뿐만 아니라 가블드 회로를 준다. 표시 GI(a₁)는 이들 입력 값들을 표시하는 데 사용된다. 가블러는 또한 가블드 회로 출력 값들과 실제 비트 값들 간의 맵핑을 제공한다. 회로를 수신할 때, 평가기는 선택기의 역할을 하는, 가블러와의 2개 중 1의 불확정 전송 프로토콜에 관여하여, 그것의 개인 입력 a₂에 대응하는 가블드 회로 입력 값 GI(a₂)를 불확정적으로(obliviously) 얻는다. 그러므로, GI(a₁) 및 GI(a₂)로부터, 평가기는 f(a₁; a₂)를 계산할 수 있다.

더 상세하게는, 프로토콜은 도 3에 도시한 것과 같은 부울 회로(300)를 통하여 함수

를 평가한다. 회로의 각각의 와이어 ω_i(310, 320)에, 가블러는 비트 값들 b_i=0 및 b_i=1에 각각 대응하는 2개의 무작위 암호 키들,

및

를 연관시킨다. 다음에, 입력 와이어들(ω_i, ω_j)(310, 320) 및 출력 와이어 ω_k(330)를 갖는 각각의 이진 게이트 g(예를 들어, OR 게이트)에 대해, 가블러는 4개의 암호문을 계산한다

에 대해

.

이들 4개의 무작위 순서의 암호문의 집합은 가블드 게이트를 정의한다.

한 쌍의 키에 의해 잠금되는 대칭 암호화 알고리즘 Enc는 선택된 평문 공격 하에서 분간할 수 없는 암호화를 갖는 것이 요구된다. 한 쌍의 키

가 주어지는 경우에, 대응하는 복호화 과정은 가블드 게이트를 구성하는 4개의 암호문으로부터

의 값을 모호하지 않게 회복하는 것이 또한 요구된다.

를 안다는 것은 단지

의 값을 산출하고 다른 출력 값들은 이 게이트를 위해 회복될 수 없다는 것에 주목할 만하다. 따라서 평가기는 부가 정보가 중간 계산에 관해 누설하지 않도록 전체 가블드 회로를 게이트 마다 평가할 수 있다.

하이브리드 방법

이 셋업에서, 각각의 입력 및 출력 변수 xi, yi,

는 개인이고 다른 사용자에 의해 유지된다는 것을 상기하자. 평가기(110)는 λ>0이 주어지는 능형 회귀를 통해 얻어지는 바와 같이, 입력과 출력 변수들 간의 선형 관계를 결정하는 β를 학습하기를 원한다.

전술한 바와 같이, β를 얻기 위해서, 식 (2)에 정의된 것과 같은, 행렬

및 벡터

를 필요로 한다. 이들 값이 얻어지고 나서, 평가기(110)는 식 (2)의 선형 시스템의 해를 구할 수 있고 β를 추출할 수 있다. 프라이버시 보호 방식으로 이 문제를 다루는 몇가지 방식이 있다. 하나는 예를 들어 비밀 분산 또는 완전한 호모모픽 암호화에 의존할 수 있다. 현재, 이들 기술은 이들이 상당한(온라인) 통신 또는 계산 오버헤드를 초래하기 때문에 현재의 설정을 위해 적합하지 않는 것으로 여겨진다. 결과적으로, 야오의 방법이 위에 요약된 바와 같이, 탐구된다.

야오의 방법을 사용하는 한 간단한 방식은 행렬들 A 및 b를 계산하고 후속하여 시스템 Aβ= b의 해를 구하는,

, 및 λ>0에 대해, 입력들 x_i, y_i를 갖는 단일 회로를 설계하는 것이다. 이러한 방법은 경매의 승리자와 같은, 다중 사용자들로부터 나오는 입력들의 간단한 함수들의 계산을 위해 과거에 사용되어 왔다. (선형 시스템의 해를 구하는 회로를 어떻게 설계하는지와 같은) 구현 문제들은 제쳐 놓더라도, 이러한 해법의 주된 단점은 결과적인 가블드 회로가 사용자들의 수 n 뿐만 아니라, β 및 입력 변수들의 차원 d 둘 다에 의존한다는 것이다. 실제 적용에서 n은 크고, 수백만 정도의 사용자일 수 있다는 것이 통상적이다. 반면, d는 수십 정도로 상대적으로 작다. 그러므로 스케일가능한 해를 얻도록, 가블드 회로의 n의 의존성을 줄이거나, 심지어 제거하는 것이 바람직하다. 이 목적을 위해, 문제가 아래 논의되는 바와 같이 새로 만들어졌다.

A. 문제를 새로 만드는 것

행렬 A 및 벡터 b는 다음과 같이, 반복 방식으로 계산될 수 있다는 점에 주목한다. 각각의 x_i 및 대응하는 y_i는 다른 사용자들에 의해 유지된다고 가정하면, 각각의 사용자 i는 행렬

및 벡터

를 국소적으로 계산할 수 있다. 다음에 부분적 기여들을 합산한 것이 다음을 산출한다는 것이 쉽게 검증된다:

및

(3)

식 (3)은 A 및 b는 가산 급수의 결과라는 것을 중요하게 보여준다. 그러므로 평가기의 회귀 태스크는 (a) A_i' 및 b_i'를 수집하여, 행렬 A 및 벡터 b를 구성하고, (b) 이들을 사용하여 선형 시스템 (2)의 해를 통해 β를 얻는 2개의 서브태스크로 분리될 수 있다.

물론, 사용자들은 그들의 로컬 분배, (A_i; b_i)를 평가기에 평문으로 보낼 수 없다. 그러나, 후자가 공개 키 가산 호모모픽 암호화 체계를 사용하여 암호화된다면, 평가기(110)는 (A_i; b_i)들의 암호화로부터 A 및 b의 암호화를 재구성할 수 있다. 나머지 도전은 β 이외의 어떤 추가적인 정보를 (평가기(110) 또는 CSP(130))에 노출시키지 않고, CSP(130)의 도움으로, 식 (2)의 해를 구하는 것이고; 야오의 가블드 회로의 사용을 통해 그렇게 하는 2개의 뚜렷한 방식들이 아래에 설명된다.

보다 명시적으로,

를 메시지 공간 Μ에서 입력 상에 쌍(A_i; b_i)을 취하고 pk, c_i 하에서 (A_i; b_i)의 암호화를 리턴하는 공개 키 pk에 의해 인덱스된 의미론적 암호화 체계라고 하자. 그러면 이것은 임의의 pk 및 임의의 2개의 쌍(A_i; b_i),(A_j; b_j)에 대해, 어떤 공개 이진 연산자에 대해

이어야 한다. 이러한 암호화 체계는 Ai 및 bi의 엔트리들을 컴포넌트-와이즈(component-wise) 암호화함으로써 임의의 의미론적 보안 가산 호모모픽 암호화 체계로부터 구성될 수 있다. 예들은 Regev의 체계 및 Paillier의 체계를 포함한다.

프로토콜들이 이제 제시될 준비가 된다. 하이 레벨 흐름도(400)가 도 4에 제공된다. 흐름도(400)는 준비 페이즈(410), 제1 페이즈(페이즈 1)(420), 및 제2 페이즈(페이즈 2)(430)를 포함한다. 사용자 공유들을 집합시키는 페이즈를 페이즈 1(420)이라고 하고, 그것이 관련하고 있는 가산은 n에 선형적으로 의존한다는 점에 주목한다. A 및 b의 암호화된 값들로부터 식 (2)의 해를 계산하는 것에 해당하는 후속 페이즈는 페이즈 2(430)라고 한다. 페이즈 2(430)는 n에 의존하지 않는다는 점에 주목한다. 이들 페이즈는 특정한 프로토콜들과 관련하여 아래에 논의될 것이다. 아래에 시스템 Aβ=b의 해를 구할 수 있는 회로의 존재를 가정한다는 점에 주목하고; 이러한 회로가 어떻게 효율적으로 구현될 수 있는지가 여기에 논의된다.

B. 제1 프로토콜

제1 프로토콜의 동작의 하이 레벨 표시(500)가 도 5에 보여질 수 있다. 제1 프로토콜은 다음과 같이 동작한다. 위에 기술된 바와 같이, 제1 프로토콜은 3개의 페이즈: 준비 페이즈(510), 페이즈 1(520), 및 페이즈 2(530)를 포함한다. 분명하게 되는 바와 같이, 페이즈 2(530)만이 실제로 온라인 처리를 필요로 한다.

준비 페이즈(510). 평가기(110)는 입력 변수들의 차원(즉, 파라미터 d) 및 그들의 값 범위와 같은, 명세를 CSP(130)에 제공한다. CSP(130)는 페이즈 2(530)에서 설명된 회로를 위한 야오 가블드 회로를 준비하고 가블드 회로를 평가기(110)에 가용하게 한다. CSP(130)는 또한 호모모픽 암호화 체계

를 위한 공개 키 pk_csp 및 개인 키 sk_csp를 생성하고, 평가기(110)는 (호모모픽일 필요는 없는) 암호화 체계

을 위한 공개 키 pk_ev 및 개인 키 sk_ev를 생성한다.

페이즈 1(520). 각각의 사용자 i는 그의 부분 행렬 A_i 및 벡터 b_i를 국소적으로 계산한다. 이들 값은 다음에 CSP(130)의 공개 암호화 키 pk_csp 하에서 가산 호모모픽 암호화 체계

를 사용하여 암호화되는데; 즉

이다.

CSP(130)가 이 값에 접근하는 것을 방지하기 위해, 사용자 i는 평가기(110)의 공개 암호화 키 pk_ev 하에서 c_i의 값을 수퍼 암호화하는데; 즉

이고

C_i를 평가기(110)에 보낸다.

평가기(110)는

를 계산한다. 이것은 후속하여 모든 수신된 C_i를 수집하고 이들을 그것의 개인 복호화 키 sk_ev를 사용하여 복호화하여 c_i들을 회복하는데; 즉

에 대해

이다.

다음에 이렇게 얻어진 값들을 집합시켜서

(4)

를 얻는다.

페이즈 2(530). 준비 페이즈(510)에서 CSP(130)에 의해 제공된 가블드 회로는 입력 GI(c)으로서 취하는 회로의 가블링이고 다음의 2개의 단계들을 행한다:

1) c를 sk_csp로 복호화하여 A 및 b를 회복하고(여기서 sk_csp는 가블드 회로 내에 내장됨);

2) 식 (2)의 해를 구하고 β를 리턴함.

이 페이즈 2(530)에서, 평가기(110)는 c에 대응하는 가블드 회로 입력 값들; 즉 GI(c)을 얻는 것만 할 필요가 있다. 이들은 평가기(110)와 CSP(130) 간의 표준의 불확정 전송(OT)을 사용하여 얻어진다.

상기 하이브리드 계산은 가블드 회로 내의 암호화된 입력들의 복호화를 수행한다. 이것이 요구될 수 있음에 따라, 예를 들어 Regev 호모모픽 암호화 체계를

을 위한 구축 블럭으로서 사용하는 것이 제안되는데 왜냐하면 Regev 체계는 매우 간단한 복호화 회로를 갖기 때문이다.

C. 제2 프로토콜

제2 프로토콜의 동작의 하이 레벨 표시(600)가 도 6에 보여질 수 있다. 제2 프로토콜은 무작위 마스크를 사용하는 가블드 회로에서 (A; b)를 복호화하는 것을 피하는 수정을 제시한다. 페이즈 1(610)은 넓게는 동일한 것으로 남는다. 그러므로 페이즈 2(및 대응하는 준비 페이즈)가 강조될 것이다. 아이디어는 부가 마스크 로 입력들을 불명하게 하기 위해 호모모픽 성질을 이용하는 것이다. (μ_A; μ_b)가

(즉, 호모모픽 암호화

의 메시지 공간) 내의 요소를 나타내면 이것은 식 (4)로부터 다음과 같이 된다는 점에 주목한다.

따라서 평가기(110)는

내의 무작위 마스크 (μ_A; μ_b)를 선택하고, c를 위와 같이 불명하게 하고, 결과적인 값을 CSP(130)에 보낸다고 가정하자. 그러면, CSP(130)는 그것의 복호화 키를 적용할 수 있고 마스크된 값들을 회복할 수 있다.

및

결과적으로, 복호화가 마스크의 제거로 교체되는 이전의 섹션의 프로토콜을 적용할 수 있다. 보다 상세히, 이것은 다음을 포함한다:

준비 페이즈(610). 이전과 같이, 평가기(110)는 평가를 셋업한다. 평가기(110)는 그것의 평가를 지원하는 가블드 회로를 구축하기 위한 명세를 CSP(130)에 제공한다. CSP(130)는 회로를 준비하고 그것을 평가기(110)에 가용하게 하고, 공개 키 및 개인 키 둘 다를 생성한다. 평가기(110)는 무작위 마스크

를 선택하고 CSP(130)와의 불확정 전송(OT) 프로토콜에 관여하여 (μ_A; μ_b)에 대응하는 가블드 회로 입력 값들; 즉 GI(μ_A; μ_b)를 얻는다.

페이즈 1(620). 이것은 제1 프로토콜과 유사하다. 또한, 평가기(110)는 c를

로서 마스크한다.

페이즈 2(630). 평가기(110)는 평문으로

를 얻기 위해 그것을 복호화하는 CSP(130)에

를 보낸다. CSP(130)는 다음에 가블드 입력 값들

을 다시 평가기(110)에 보낸다. 준비 페이즈에서 CSP(130)에 의해 제공된 가블드 회로는 입력

및 GI(μ_A; μ_b)로서 취하는 회로의 가블링이고 다음의 2개의 단계들을 행한다:

1)

로부터 마스크 (μ_A; μ_b)를 빼서 A 및 b를 회복하고;

2) 식 (2)의 해를 구하고 β를 리턴함.

가블드 회로 뿐만 아니라 (μ_A; μ_b)에 대응하는 가블드 회로 입력 값들 GI(μ_A; μ_b)는 준비 페이즈(610) 동안에 얻어졌다. 이 페이즈에서, 평가기(110)는 CSP(130)으로부터

에 대응하는 가블드 회로 입력 값들,

을 수신할 필요만 있다. 이 페이즈에서 불확정 전송(OT)은 없다는 점에 주목한다.

제2 실현을 위해, 복호화는 회로의 부분으로서 실행되지 않는다. 그러므로 이것은 회로로서 효율적으로 구현될 수 있는 호모모픽 암호화 체계를 선택하는 것에 제한되지 않는다. Regev의 체계 대신에, 를 위한 구축 블럭으로서 Paillier의 체계 또는

및 Jurik에 의한 그것의 일반화를 사용하는 것이 제안된다. 이들 체계는 Regev보다 짧은 암호문 확장을 갖고 보다 작은 키들을 요구한다.

D. 제3 프로토콜

어떤 응용들을 위해, 관련된 아이디어가 호모모픽 암호화 체계가 단지 부분적인 호모모픽 성질을 가질 때 적용된다. 이 개념은 다음 정의에서 명시적으로 된다.

정의 1: 부분적인 호모모픽 암호화 체계는 개인 암호화 키를 필요로 하지 않고서 암호화된 평문에 상수를 가산하거나(호모모피즘이 가산인 경우) 또는 승산하는(부분적인 호모모피즘이 승산인 경우) 것이 가능하도록 하는 암호화 체계이다.

여기에 몇가지 예를 든다

·

를 프라임 필드를 표시하는 것으로 하고 G=〈g〉를 g에 의해 발생된 승산 그릅

의 순환 서브그룹이라고 하자. q는 G의 차수를 표시한다고 하자. 평문 엘가말(Elgamal) 암호화를 위해, 메시지 공간은

이다. 공개 키는 y=g^x이고 개인 키는 x이다.

내의 메시지 m의 암호화는 어떤 무작위

에 대해 R=g^r 및 c=my^r인 (R; c)에 의해 주어진다. 평문 m은 비밀 키 x를 m=c/R^x로서 사용하여 회복된다.

- 상기 시스템은

에서의 승산에 대한 부분적인 호모모픽이다:

임의의 상수

에 대해, C'=(R; Kc)는 메시지 m'=Km의 암호화이다.

· 소위 해시된 엘가말 암호화 방식은 가산에서 해시 함수 H, 어떤 파라미터 k에 대해, G로부터

로의 그룹 요소의 맵핑을 요구한다. 메시지 공간은

이다. 키 생성은 평문 엘가말을 위한 것이다. 메시지

의 암호화는 어떤 무작위

에 대해 R=g^r 및 c=m+H(y^r)인 (R; c)에 의해 주어진다. 평문 m은 다음에 비밀 키 x를 m=c+H(R^x)로서 사용하여 회복된다. '+'는

에서의 가산에 대응한다는 점에 주목한다(즉, 이것은 k-비트 스트링 상에서 XOR로서 등가적으로 보여질 수 있다).

- 상기 시스템은 XOR에 대해 부분적인 호모모픽이다: 임의의 상수

에 대해, C'=(R;K+c)는 메시지 m'=k+m의 암호화이다.

비제한적인 예를 위해, 이제 c는 부분적인 호모모픽 암호화 체계, 즉

하에서 (A; b)의 암호화라고 가정하면, (μ_A; μ_b)가

(즉, 부분적인 호모모픽 암호화

의 메시지 공간) 내의 요소를 나타내면 이것은 일부 연산자

에 대해 식 (4)로부터 다음과 같이 된다

(상기 설명에서, 호모모피즘은 가산적인 것으로 주목되고; 승산적 작성 호모모피즘에 대해 동일하게 적용된다.)

그러므로, 평가기(110)는

에서 무작위 마스크 (μ_A; μ_b)를 선택하고, 위와 같이 c를 불명하게 하고, 결과적인 값을 CSP(130)에 보낸다고 가정하자. 그러면, CSP(130)는 그것의 복호화 키를 적용할 수 있고 마스크된 값들을 회복할 수 있다.

및

결과적으로, 이전의 섹션의 프로토콜은 복호화가 마스크의 제거로 교체되는 것이 적용될 수 있다.

마지막으로, 제2 또는 제3 프로토콜마다 마스크를 사용하는 트릭은 능형 회귀의 경우로 한정되지 않는다는 점에 주목한다. 이것은 가블드 회로와 호모모픽 암호화(각각 부분적인 호모모픽 암호화)를 하이브리드 방식으로 조합하는 임의의 응용에서 사용될 수 있다.

E. 논의

제안된 프로토콜들은 그들을 실세계 시나리오에서 효율적이고 실용적이게 하는 여러 강점들을 갖는다. 첫째, 사용자가 처리 중에 온라인으로 유지할 필요가 없다. 페이즈 1(420)이 증분적이기 때문에, 각각의 사용자는 그들의 암호화된 입력들을 제출하고, 시스템에서 나올 수 있다.

더구나, 시스템(100)은 능형 회귀를 다수 번 수행하는 것에 쉽게 적용될 수 있다. 평가기(110)가

번의 평가들을 수행하기를 원한다고 가정하면, 그것은 준비 페이즈(410) 동안에 CSP(130)으로부터

개의 가블드 회로들을 검색할 수 있다. 다중 평가는 새로운 사용자들(120)의 도달을 수용하는 데 사용될 수 있다. 특히, 공개 키들이 오래 살아있기 때문에, 그들은 너무 자주 리프레시될 필요는 없는데, 이는 새로운 사용자들이 평가기(110)에 더 많은 쌍(Ai; bi)을 제출할 때, 후자는 이들을 이전의 값들과 합산하고 갱신된 β를 계산할 수 있다는 것을 의미한다. 이 과정은 새로운 가블드 회로를 이용하는 것을 요구하지만, 이미 그들의 입력들을 제출했던 사용자들은 이들을 다시 제출할 필요가 없다.

마지막으로, 요구된 통신량이 비밀 분산 체계에서 보다 상당히 작고, 평가기(110) 및 CSP(130) 만이 불확정 전송(OT)을 사용하여 통신한다. 페이즈 1(420)에서 공개 키 암호화 체계

을 사용하기보다는, 사용자들이 어떤 수단을 사용하여 예를 들어, SSL과 같은 평가기(110)와의 보안 통신을 설정할 수 있다는 점에 또한 주목한다.

F. 다른 최적화

행렬 A는

내에 있고 벡터 b는

내에 있다는 것을 상기하자. 그러므로 k가 실수를 인코드하는 데 사용된 비트 크기를 표시하는 것으로 하면, 행렬 A 및 벡터 b는 각각 그들의 표현을 위해 d²k 비트 및 dk 비트를 필요로 한다. 제2 프로토콜은

에서 무작위 마스크 (μ_A; μ_b)를 요구한다. 호모모픽 암호화 체계

는 A 및 b의 모든 엔트리가 개별적으로 Paillier 암호화되는 Paillier의 체계의 상부에 구축되었다고 가정하자. 이 경우에

의 메시지 공간

은 어떤 RSA 모듈러스 N에 대해

내에서 (d² + d) 요소들로 구성된다. 그러나 그들 요소가 k 비트 값들이므로 전체 범위

내에서 대응하는 마스킹 값들을 끌어낼 필요는 없다. 그들이 통계적으로 대응하는 엔트리를 가리는 한, 얼마간(비교적 짧은)의 보안 길이

에 대한 임의의 (k+1) 비트 값들이면 될 것이다. 실제로, 이것은 준비 페이즈에서 보다 적은 수의 불확정 전송과 보다 작은 가블드 회로에 이르게 한다.

효율을 개선하기 위한 다른 방식은 표준 배칭(batching) 기술을 통하는 것인데, 즉 A 및 b의 다중 평문 엔트리들을 단일의 Paillier 암호문으로 패킹하는 것이다. 예를 들어, 20개의 평문 값들을 (충분히 많은 0으로 분리된) 단일 Paillier 암호문으로 패킹하면 페이즈 1의 런닝 타임은 20의 인자만큼 줄어들 것이다.

구현

프라이버시 보호 시스템의 실행 가능성을 평가하기 위해서, 시스템은 합성 및 실제 데이터셋트 둘 다에 대해 구현되고 테스트되었다. 위에 제안된 제2 프로토콜이 구현되었는데, 가블드 회로 내에서 복호화를 요구하지 않고, (단지 합산만 포함하는) 페이즈 1에 효율적인 호모모픽 암호화의 사용을 가능하게 한다.

A. 페이즈 1 구현

위에 논의된 바와 같이, 호모모픽 암호화를 위해 Paillier의 체계는 80 비트 보안 레벨에 대응하는, 1024 비트 길이 모듈러스로 사용되었다. 페이즈 1의 속도를 올리기 위해서, 배칭이 또한 위에 요약된 바와 같이 구현되었다. 그들의 입력들을 제공하는 n개의 사용자들이 주어지는 경우에, 1024 비트의 하나의 Paillier 암호문으로 배칭될 수 있는 요소들의 수는 1024=(b+ log₂n)이고, 여기서, b는 수들을 나타내기 위한 비트들의 총수이다. 나중에 논의되는 바와 같이, b는 원하는 정밀도의 함수로서 결정되므로, 본 실험에서 15 내지 30개의 요소가 배칭되었다.

B. 회로 가블링 프레임워크

시스템은 개발자가 기본적인 XOR, OR 및 AND 게이트들을 사용하여 임의의 회로를 정의하게 하는 FastGC, 자바 기반 오픈-소스(Java-based open-source) 프레임워크의 상부에 구축되었다. 회로가 구성되고 나서, 프레임워크는 가블드 회로의 가블링, 불확정 전송 및 완전한 평가를 담당한다. FastGC는 몇가지 최적화를 포함한다. 첫째, 회로 내의 XOR 게이트들을 위한 통신 및 계산 비용은 "프리 XOR" 기술을 사용하여 상당히 감소된다. 둘째, 가블드-행 감소 기술을 사용하여, FastGC는 k-팬-인(k-fan-in) 논(non)-XOR 게이트들을 위한 통신 비용을 1=2^k 만큼 감소시키고, 결국 25% 통신 절약을 제공하는데, 왜냐하면 2-팬-인 게이트들만이 프레임워크 내에 정의되기 때문이다. 셋째, FastGC는 k개의 OT를 들여 실제로 제한되지 않은 수의 전송 및 추가 OT 당 몇 개의 대칭 키 연산을 실행할 수 있는 OT 확장을 구현한다. 마지막으로, 최종 최적화는 4개의 XOR 게이트(이중 모두는 통신 및 계산에 대해 "프리") 및 단 하나의 AND 게이트를 갖는 회로를 정의하는 간결한 "3비트 추가" 회로이다. FastGC는 가블링과 평가를 동시에 일어나게 한다. 보다 구체적으로, CSP(130)는 그들이 회로 구조에 의해 발생되는 순대대로 가블드 테이블들을 평가기(110)에 전송한다. 평가기(110)는 다음에 어떤 게이트가 가용한 출력 값들 및 테이블들에 기초하여 다음에 평가할지를 결정한다. 게이트가 평가되고 나서 그것의 대응하는 테이블이 즉각 폐기된다. 이것은 모든 가블드 회로를 오프라인으로 사전 계산하는 것과 동일한 계산 및 통신 비용에 달하지만, 메모리 소비는 일정하게 한다.

C. 회로에서 선형 시스템의 해를 구하는 것

본 방법의 주된 도전들 중의 하나는 식 (2)에서 정의된 바와 같이, 선형 시스템 Aβ=b의 해를 구하는 회로를 설계하는 것이다. 가블드 회로로서 함수를 구현할 때, 데이터-애그노스틱(data-agnostic)인, 즉 실행 경로가 출력에 의존하지 않는 연산들을 사용하는 것이 바람직하다. 예를 들어, 입력들이 가블될 때, 평가기(110)는 이프-덴-엘스(if-then-else) 구문의 모든 가능한 경로들을 실행할 필요가 없고, 이는 네스티드(nested) 조건부 구문의 존재시에 회로 크기와 실행 시간 둘 다의 지수적 증가에 이르게 한다. 이것은 예를 들어 가우스 소거(Gaussian elimination)와 같은, 피보팅을 요구하는 선형 시스템의 해를 구하기 위한 전통적인 알고리즘의 어떤 것을 실용적이지 못하게 한다.

간단화를 위해, 이 시스템은 아래에 제시된 표준 콜레스키 알고리즘을 구현하였다. 그러나, 그것의 복잡성은 유사한 기술들을 사용하는 블럭-와이즈 반전과 동일한 복잡성으로 더욱 감소될 수 있다는 점에 주목한다.

선형 시스템들의 해를 구하기 위한 몇 가지 가능한 분해 방법들이 있다. 콜레스키 분해는 행렬 A가 대칭인 양의 정부호일 때만 적용가능한 선형 시스템의 해를 구하기 위한 데이터-애그노스틱 방법이다. 콜레스키의 주된 장점은 피보팅할 필요없이 수치적으로 강건하다는 것이다. 특히, 고정 소수점 수치 표현에 잘 맞는다.

는 사실상 λ>0에 대해 양의 정부호 행렬이기 때문에, 콜레스키는 이 구현에서 Aβ=b의 해를 구하는 방법으로서 선택되었다.

콜레스키 분해의 주요 단계들이 아래에 간략히 요약된다. 이 알고리즘은 A=L^TL이도록 하삼각 행렬 L을 구성하고: 시스템 Aβ=b의 해를 구하면 다음의 2개의 시스템의 해를 구하는 것으로 줄어든다:

LTy=b; 및

Lβ=y

행렬들 L 및 LT는 삼각형이기 때문에, 이들 시스템은 후치환을 사용하여 쉽게 해가 구해질 수 있다. 더구나, 행렬 A는 양의 정부호이기 때문에, 행렬 L은 반드시 대각선 상에 비제로 값들을 가지어, 피보팅이 필요하지 않다.

분해 A=L^TL는 도 7에 도시한 알고리즘 1에서 설명된다. 이것은

가산,

승산,

제산 및

제곱근 연산들을 포함한다. 또한, 후진 제거를 통한 상기 2개의 시스템의 해는

가산,

승산 및

제산을 포함한다. 회로로서의 이들 연산의 구현은 아래에 논의된다.

D. 실수를 표현하는 것

선형 시스템 (2)의 해를 구하기 위해서, 2진 형태의 실수를 정확하게 표현할 필요가 있다. 실수를 표현하는 2가지 가능한 방법들이 고려되는데: 부동 소수점 및 고정 소수점이다. 실수 a의 부동 소수점 표현은 다음 식에 의해 주어진다:

여기서

부동 소수점 표현은 실제적으로 임의의 크기의 수를 수용한다는 장점을 갖는다. 그러나, 가산과 같은, 부동 소수점 표현에 대한 기본적인 연산들은 데이터-애그노스틱 방식으로 구현하기가 어렵다. 가장 중요하게는, 구현하기가 상당히 더 간단한 고정 소수점 표현을 사용하여 콜레스키 보증을 사용하는 것이다. 실수 a가 주어지는 경우에, 그것의 고정 소수점 표현은 다음에 의해 주어진다:

, 여기서 지수 p는 고정.

여기에 논의된 바와 같이, 수행될 필요가 있는 연산들 중 많은 것은 고정 소수점 수에 대해 데이터-애그노스틱 방식으로 구현될 수 있다. 이와 같이, 고정 소수점 표현을 위해 발생된 회로들은 훨씬 더 작다. 더구나, 능형 회귀의 입력 변수들 x_i는 β의 계수들이 비교할만하고, 수치적 안정성을 위해서도 그렇다는 것을 보장하기 위해 전형적으로 동일한 영역(-1 내지 +1)으로 리스케일되는 것을 상기하자. 이러한 셋업에서, 콜레스키 분해는 오버플로우를 발생하지 않고 고정 소수점 수로 A에 대해 수행될 수 있다는 것이 공지된다. 더구나, y_i에 대한 한계 및 행렬 A의 조건 수가 주어지는 경우에, 오버플로우를 방지하기 위해 필요한 비트들은 방법에서 최종의 2개의 삼각형 시스템의 해를 구하는 동안 계산될 수 있다. 그러므로, 시스템은 고정 소수점 표현을 사용하여 구현되었다. 분수 부분에 대한 비트들 p의 수가 시스템 파라미터로서 선택될 수 있고, 시스템의 정확도와 발생된 회로의 크기 간의 절충을 이룬다. 그러나, p를 선택하는 것은 원하는 정확도에 기초한 원칙에 입각한 방식으로 행해질 수 있다. 음의 수는 표준의 2의 보수 표현을 사용하여 표현된다.

여기에 개시된 다양한 실시예들은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의의 조합으로 구현될 수 있다. 게다가, 소프트웨어는 바람직하게는 프로그램 저장 장치 또는 컴퓨터 판독 가능 매체 상에 유형으로 구현된 애플리케이션 프로그램으로서 구현된다. 애플리케이션 프로그램은 임의의 적합한 아키텍처를 포함하는 머신에 업로드되고, 이 머신에 의해 실행될 수도 있다. 바람직하게는, 머신은 하나 이상의 중앙 처리 장치들("CPU들"), 메모리, 및 입력/출력 인터페이스들과 같은 하드웨어를 갖는 컴퓨터 플랫폼 상에서 구현된다. 컴퓨터 플랫폼은 또한 운영체제 및 마이크로명령 코드를 포함할 수 있다. 여기서 설명된 다양한 프로세스들 및 기능들은 CPU에 의해 실행될 수 있는 마이크로명령 코드의 일부 또는 애플리케이션 프로그램의 일부 중 하나일 수 있거나, 그들의 임의의 조합일 수 있고, 그러한 컴퓨터 또는 프로세서가 명시적으로 도시되어 있는지 여부와는 무관하다. 또한, 추가적인 데이터 저장 장치 및 인쇄 장치와 같은 다양한 다른 주변 장치들이 컴퓨터 플랫폼에 접속될 수 있다.

본 명세서에서 나열된 모든 예시들 및 조건 언어는 교시의 목적들에 대해 독자가 실시예들의 원리들 및 발명자에 의해 본 기술분야에 추가적으로 기여된 개념들을 이해하는 것을 돕고자 하는 것이고, 그러한 구체적으로 나열된 예시들 및 조건들로의 한정되지 않는 것으로 해석될 것이다. 또한, 발명의 원리들, 양태들 및 상이한 실시예들 뿐만 아니라 그들의 특정한 예시들을 나열하는 본 명세서의 모든 서술들은 그들의 구조적이고 기능적인 등가물들 모두를 포괄하는 것이 의도된다. 추가적으로, 이와 같은 등가물은 현재 공지된 등가물 뿐만 아니라 미래에 개발되는 등가물을 즉, 구조에 상관없이, 동일한 기능을 수행하는 어떠한 요소들도 모두 포함하는 것으로 의도하고자 한다.

Claims

프라이버시 보호 능형 회귀(privacy-preserving ridge regression)를 제공하는 방법으로서,
암호화 서비스 제공자에게 가블드 회로(garbled circuit)를 요구하는 단계;
호모모픽(homomorphic) 암호화를 사용하여 포맷되고 암호화된 데이터를 다중 사용자들로부터 수집하는 단계;
호모모픽 암호화를 사용하여 포맷되고 암호화된 상기 데이터를 합산하는 단계; 및
불확정 전송을 사용하여 상기 합산된 데이터로 상기 암호화 서비스 제공자로부터의 상기 가블드 회로를 평가하는 단계
를 포함하는 방법.
제1항에 있어서, 암호화 서비스 제공자에게 가블드 회로를 요구하는 상기 단계는
상기 가블드 회로를 위한 입력 변수들의 차원을 제공하는 단계; 및
상기 입력 변수들의 값 범위를 제공하는 단계를 포함하는 방법.
제1항에 있어서, 컴퓨팅 장치 상에서 구현되는 평가기가 상기 방법을 수행하는 방법.
제3항에 있어서, 상기 암호화 서비스 제공자는 상기 평가기가 구현되는 상기 컴퓨팅 장치로부터 떨어진 컴퓨팅 장치 상에서 구현되는 방법.
제1항에 있어서, 다중 사용자들로부터의 상기 데이터를 암호화하기 위한 암호화 키를 제공하는 단계들 더 포함하는 방법.
제5항에 있어서, 다중 사용자들로부터의 상기 데이터는 상기 암호화 서비스 제공자에 의해 제공된 암호화 키로 더 암호화되는 방법.
제1항에 있어서, 상기 가블드 회로를 평가하는 상기 단계는
상기 합산된 데이터를 복호화하는 단계; 및
상기 가블드 회로에 의해 실시된 능형 회귀 방정식의 해를 구하는 단계를 더 포함하는 방법.
제1항에 있어서, 다중 사용자들로부터 데이터를 수집하는 상기 단계는 컴퓨팅 장치를 통해 상기 다중 사용자들 각각으로부터 보내진 데이터를 수신하는 단계를 포함하는 방법.
프라이버시 보호 능형 회귀를 제공하는 컴퓨팅 장치로서,
사용자 데이터를 저장하는 저장부;
처리하기 위한 데이터를 저장하는 메모리; 및
암호화 서비스 제공자에게 가블드 회로를 요구하고, 호모모픽 암호화를 사용하여 포맷되고 암호화된 데이터를 다중 사용자들로부터 수집하고, 호모모픽 암호화를 사용하여 포맷되고 암호화된 상기 데이터를 합산하고, 불확정 전송을 사용하여 상기 합산된 데이터로 상기 암호화 서비스 제공자로부터의 상기 가블드 회로를 평가하도록 구성된 프로세서
를 포함하는 컴퓨팅 장치.
제9항에 있어서, 네트워크에 접속하기 위한 네트워크 접속을 더 포함하는 컴퓨팅 장치.
제9항에 있어서, 상기 암호화 서비스 제공자는 별도의 컴퓨팅 장치 상에서 구현되는 컴퓨팅 장치.
제9항에 있어서, 암호화 서비스 제공자에게 가블드 회로를 요구하는 상기 단계는
상기 가블드 회로를 위한 입력 변수들의 차원을 제공하는 단계; 및
상기 입력 변수들의 값 범위를 제공하는 단계를 포함하는 컴퓨팅 장치.
제9항에 있어서, 상기 가블드 회로를 평가하는 상기 단계는
상기 합산된 데이터를 복호화하는 단계; 및
상기 가블드 회로에 의해 실시된 능형 회귀 방정식의 해를 구하는 단계를 더 포함하는 컴퓨팅 장치.
제9항에 있어서, 다중 사용자들로부터의 상기 데이터는 상기 암호화 서비스 제공자에 의해 제공된 암호화 키로 암호화되고 상기 컴퓨팅 장치에 의해 암호화 키로 암호화되는 컴퓨팅 장치.
실행될 때,
암호화 서비스 제공자에게 가블드 회로를 요구하는 단계;
호모모픽 암호화를 사용하여 포맷되고 암호화된 데이터를 다중 사용자들로부터 수집하는 단계;
호모모픽 암호화를 사용하여 포맷되고 암호화된 상기 데이터를 합산하는 단계; 및
불확정 전송을 사용하여 상기 합산된 데이터로 상기 암호화 서비스 제공자로부터의 상기 가블드 회로를 평가하는 단계
를 수행하는 명령어들을 포함하는 머신 판독 가능 매체.