KR102304992B1 - 동형 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법 - Google Patents

동형 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법 Download PDF

Info

Publication number
KR102304992B1
KR102304992B1 KR1020210045002A KR20210045002A KR102304992B1 KR 102304992 B1 KR102304992 B1 KR 102304992B1 KR 1020210045002 A KR1020210045002 A KR 1020210045002A KR 20210045002 A KR20210045002 A KR 20210045002A KR 102304992 B1 KR102304992 B1 KR 102304992B1
Authority
KR
South Korea
Prior art keywords
function
polynomial
range
approximate
logistic
Prior art date
Application number
KR1020210045002A
Other languages
English (en)
Inventor
천정희
박재현
김우태
Original Assignee
서울대학교산학협력단
주식회사 크립토랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단, 주식회사 크립토랩 filed Critical 서울대학교산학협력단
Priority to KR1020210045002A priority Critical patent/KR102304992B1/ko
Application granted granted Critical
Publication of KR102304992B1 publication Critical patent/KR102304992B1/ko
Priority to US17/499,793 priority patent/US11757618B2/en
Priority to CN202111228041.2A priority patent/CN115208548A/zh
Priority to EP21204185.9A priority patent/EP4072062A1/en
Priority to JP2021174196A priority patent/JP7449911B2/ja
Priority to JP2023176698A priority patent/JP2023179681A/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/008Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/30Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy
    • H04L9/3006Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy underlying computational problems or public-key parameters
    • H04L9/3026Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy underlying computational problems or public-key parameters details relating to polynomials generation, e.g. generation of irreducible polynomials
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/30Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy
    • H04L9/3093Public key, i.e. encryption algorithm being computationally infeasible to invert or user's encryption keys not requiring secrecy involving Lattices or polynomial equations, e.g. NTRU scheme
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/04Masking or blinding
    • H04L2209/046Masking or blinding of operations, operands or results of the operations

Abstract

암호문 연산 방법이 개시된다. 본 암호문 연산 방법은 동형암호문에 대한 비다항식 연산 명령을 입력받는 단계, 비다항식 연산에 대응되는 근사 다항식 함수를 산출하는 단계, 산출된 다항식 함수를 이용하여 동형 암호문에 대한 연산을 수행하는 단계, 및 연산된 동형 암호문을 출력하는 단계를 포함하고, 근사 다항식 함수는 제1 범위 내에서 비다항식 연산과 기설정된 정확도를 갖는 제1 근사 다항식 함수를 제1 범위보다 넓은 제2 범위를 갖도록 확장된 제2 근사 다항식 함수이다.

Description

동형 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법{APPARATUS FOR PROCESSING NON-POLYNOMIAL OPERATION ON HOMOPROPHIC ENCRYPTED MESSAGES AND METHODS THEREOF}
본 개시는 동형암호문에 대한 비다항식 연산 시에 넓은 도메인을 갖는 근사 다항식을 산출하여 수행할 수 있는 장치 및 방법에 대한 것이다.
통신 기술이 발달하고, 전자 장치의 보급이 활발해짐에 따라, 전자 장치 간의 통신 보안을 유지하기 위한 노력이 지속적으로 이루어지고 있다. 이에 따라, 대부분의 통신 환경에서는 암호화/복호화 기술이 사용되고 있다.
암호화 기술에 의해 암호화된 메시지가 상대방에게 전달되면, 상대방은 메시지를 이용하기 위해서는 복호화를 수행하여야 한다. 이 경우, 상대방은 암호화된 데이터를 복호화하는 과정에서 자원 및 시간 낭비가 발생하게 된다. 또한, 상대방이 연산을 위해 일시적으로 메시지를 복호화한 상태에서 제3자의 해킹이 이루어지는 경우, 메시지가 제3자에게 손쉽게 유출될 수 있다는 문제점도 있었다.
이러한 문제를 해결하기 위하여 동형 암호화 방법이 연구되고 있다. 동형 암호(Homoprophic Encryption)은 가장 유망한 암호 체계 중 하나이다. 동형 암호는 복호 과정 없이 암호화된 데이터에 대한 덧셈 및 곱셈을 수행할 수 있다. 따라서, 동형 암호를 활용함으로써 클라이언트는 신뢰할 수 없는 클라우드 서버에 계산을 위임할 수 있으며, 암호화된 상태의 입력 데이터를 서버에 전송하고, 어떠한 추가적인 질의가 없는 상태에서 모든 계산을 수행할 수 있다. 이와 같이 동형 암호는 개인 데이터에 대한 계산의 위임 구조를 단순하고 안전하게 제공한다.
머신 러닝 방법들이 개인 데이터를 활용하고 있어 개인 정보 관련 문제가 끊임없이 제기되고 있기 때문에, 최근에는 머신 러닝(ML: Machine Learning)에 동형 암호를 이용하려는 여러 연구가 진행중이다. 머신 러닝에서의 개인 정보 보호를 위하여 기존에는 정보의 손실 가능성, 취약성 발생 가능성 등의 한계가 있지만, 동형 암호 기반의 머신러닝 솔루션은 이러한 한계를 해결할 수 있다.
머신러닝 알고리즘 내의 비다항식 연산을 산출하기 위하여, 대부분의 동형 암호 기반 솔루션은 비다항식을 이에 대한 근사 다항식으로 대체하여 이용한다. 그러나 기존의 근사화는 전체 실수에 대해서 수행되지 못하고 한정된 범위에서만 동작되도록 수행되었다.
그러나 종래와 같은 근사화 방식은 공공의 데이터세트 및 하이퍼파라미터에 맞지 않으며, 새로운 데이터 세트의 입력 범위가 기존의 도메인 범위를 벗어나는 경우, 해당 모델은 잠재적으로 동작하지 않을 수 있는 문제가 있었다.
따라서 본 개시는 상술한 바와 같은 문제점을 해결하기 위한 고안된 것으로, 동형암호문에 대한 비다항식 연산 시에 넓은 도메인을 갖는 근사 다항식을 산출하여 수행할 수 있는 장치 및 방법에 대한 것이다.
본 개시는 이상과 같은 목적을 달성하기 위한 것으로, 동형암호문에 대한 비다항식 연산 명령을 입력받는 단계, 상기 비다항식 연산에 대응되는 근사 다항식 함수를 산출하는 단계, 상기 산출된 다항식 함수를 이용하여 상기 동형 암호문에 대한 연산을 수행하는 단계, 및 상기 연산된 동형 암호문을 출력하는 단계를 포함하고, 상기 근사 다항식 함수는, 제1 범위 내에서 상기 비다항식 연산과 기설정된 정확도를 갖는 제1 근사 다항식 함수를 상기 제1 범위보다 넓은 제2 범위를 갖도록 확장된 제2 근사 다항식 함수이다.
여기서, 상기 근사 다항식 함수를 산출하는 단계는, 상기 제1 근사 다항식을 결정하는 단계, 및 상기 제1 범위 내에서는 상기 제1 범위 내에서의 상기 제1 근사 다항식의 계산 값에 대응되는 값을 갖고, 상기 제1 범위 이외의 상기 제2 범위에서는 상기 제1 범위의 끝단에서의 상기 제1 근사 다항식의 계산 값에 대응되는 값을 갖는 제2 근사 다항식을 산출하는 단계를 포함할 수 있다.
여기서, 상기 제2 근사 다항식을 산출하는 단계는, 상기 제1 범위 및 상기 제2 범위에 기초하여 반복 횟수와 기본 함수를 결정하고, 기본 함수와 기본함수에 대응되는 스케일링 기본 함수를 상기 결정된 반복횟수만큼 반복적으로 합성하여 제2 근사 다항식을 산출할 수 있다.
한편, 상기 비다항식 연산은 로지스틱 함수를 포함하는 연산이고, 상기 로지스틱 함수에 사용되는 상기 제2 범위는 다음의 수학식에 의하여 산출될 수 있다.
Figure 112021040565344-pat00001
여기서, Cα,d,t는 제2 범위의 상단 값, α는 학습률, d는 데이터의 속성 수, t는 로지스틱 회귀분석의 학습 횟수이다.
한편, 상기 비다항식 연산은 로지스틱 함수, hypertangent 함수, erf 함수, arctangent 함수, 가우시안 함수, ReLU-n 함수 중 적어도 하나의 함수를 이용하는 연산일 수 있다.
한편, 본 개시의 일 실시 예에 따른 연산 장치는 적어도 하나의 인스트럭션(instruction)을 저장하는 메모리, 및 상기 적어도 하나의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써, 동형암호문에 대한 비다항식 연산 명령을 입력받으면, 상기 비다항식 연산에 대응되는 근사 다항식 함수를 산출하고, 상기 산출된 다항식 함수를 이용하여 상기 동형 암호문에 대한 연산을 수행하며, 상기 근사 다항식 함수는,
제1 범위 내에서 상기 비다항식 연산과 기설정된 정확도를 갖는 제1 근사 다항식 함수를 상기 제1 범위보다 넓은 제2 범위를 갖도록 확장된 제2 근사 다항식 함수이다.
여기서, 상기 프로세서는, 상기 제1 근사 다항식을 결정하고, 상기 제1 범위 내에서는 상기 제1 범위 내에서의 상기 제1 근사 다항식의 계산 값에 대응되는 값을 갖고, 상기 제1 범위 이외의 상기 제2 범위에서는 상기 제1 범위의 끝단에서의 상기 제1 근사 다항식의 계산 값에 대응되는 값을 갖는 제2 근사 다항식을 산출할 수 있다.
이 경우, 상기 프로세서는, 상기 제1 범위 및 상기 제2 범위에 기초하여 반복 횟수와 기본 함수를 결정하고, 기본 함수와 기본함수에 대응되는 스케일링 기본 함수를 상기 결정된 반복횟수만큼 반복적으로 합성하여 제2 근사 다항식을 산출할 수 있다.
한편, 상기 비다항식 연산은 로지스틱 함수를 포함하는 연산이고, 상기 로지스틱 함수에 사용되는 상기 제2 범위는 다음의 수학식에 의하여 산출될 수 있다.
Figure 112021040565344-pat00002
여기서, Cα,d,t는 제2 범위의 상단 값, α는 학습률, d는 데이터의 속성 수, t는 로지스틱 회귀분석의 학습 횟수이다.
한편, 상기 비다항식 연산은 로지스틱 함수, hypertangent 함수, erf 함수, arctangent 함수, 가우시안 함수, ReLU-n 함수 중 적어도 하나의 함수를 이용하는 연산일 수 있다.
이상과 같은 본 개시의 다양한 실시 예들에 따르면, 이전의 동형 암호 기반 머신러닝 알고리즘은 경험적으로 추정된 도메인에서만 유효한 다항식 근사치로 비다항식을 대체하였다. 이에 따라 데이터 집합이나 매개 변수가 극도로 커지면 동작이 수행되지 못하는 단점이 있었다. 반면에 본 개시에 따른 방법은 머신 러닝 모델 내의 각 비다항식 함수의 가능한 입력의 범위를 계산하고, 각 범위 내에서 신뢰성 있게 동작 가능한 근사 다항식을 산출하여 사용하기 때문에, 임의로 주어진 데이터 집합과 파라미터에서 정상 작동할 수 있다.
또한, 본 개시의 일 실시 예에 따른 근사 다항식 생성 방법은 반복적으로 간단한 기능으로 구성되어 있으며, 근사 도메인이 매우 크더라도 효율적이고 동형 암호에 친화적이다.
도 1은 본 개시의 일 실시 예에 따른 네트워크 시스템의 구조를 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 연산 장치의 구성을 나타낸 블럭도,
도 3은 본 개시의 연산 장치의 연산 동작을 설명하기 위한 도면,
도 4는 본 개시의 일 실시 예에 따른 암호문 연산 방법을 설명하기 위한 흐름도,
도 5는 본 개시의 제1 일 실시 예에 따른 범위가 확장된 다항식의 예를 도시한 도면,
도 6은 본 개시의 제2 일 실시 예에 따른 범위가 확장된 다항식의 예를 도시한 도면,
도 7은 본 개시의 제1 실시 예에 따라 다항식 확장 알고리즘을 설명하기 위한 도면,
도 8은 본 개시의 제2 일 실시 예에 따라 다항식 확장 알고리즘을 설명하기 위한 도면,
도 9는 본 개시의 제3 실시 예에 따라 다항식 확장 알고리즘을 설명하기 위한 도면, 그리고,
도 10은 본 개시의 제4 실시 예에 따라 다항식 확장 알고리즘을 설명하기 위한 도면이다.
이하에서는 첨부 도면을 참조하여 본 개시에 대해서 자세하게 설명한다. 본 개시에서 수행되는 정보(데이터) 전송 과정은 필요에 따라서 암호화/복호화가 적용될 수 있으며, 본 개시 및 특허청구범위에서 정보(데이터) 전송 과정을 설명하는 표현은 별도로 언급되지 않더라도 모두 암호화/복호화하는 경우도 포함하는 것으로 해석되어야 한다. 본 개시에서 "A로부터 B로 전송(전달)" 또는 "A가 B로부터 수신"과 같은 형태의 표현은 중간에 다른 매개체가 포함되어 전송(전달) 또는 수신되는 것도 포함하며, 반드시 A로부터 B까지 직접 전송(전달) 또는 수신되는 것만을 표현하는 것은 아니다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다. 그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 개시에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.
본 개시에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 안 되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.
그리고 본 개시에서 "값"이라 함은 스칼라값뿐만 아니라 벡터도 포함하는 개념으로 정의된다.
후술하는 본 개시의 각 단계의 수학적 연산 및 산출은 해당 연산 또는 산출을 하기 위해 공지되어 있는 코딩 방법 및/또는 본 개시에 적합하게 고안된 코딩에 의해서 컴퓨터 연산으로 구현될 수 있다.
이하에서 설명하는 구체적인 수학식은 가능한 여러 대안 중에서 예시적으로 설명되는 것이며, 본 개시의 권리 범위가 본 개시에 언급된 수학식에 제한되는 것으로 해석되어서는 아니된다.
설명의 편의를 위해서, 본 개시에서는 다음과 같이 표기를 정하기로 한다.
a ← D : 분포(D)에 따라서 원소(a)를 선택함
s1, s2 ∈ R : S1, S2 각각은 R 집합에 속하는 원소이다.
mod(q) : q 원소로 모듈(modular) 연산
Figure 112021040565344-pat00003
: 내부 값을 반올림함
이하에서는 첨부된 도면을 이용하여 본 개시의 다양한 실시 예들에 대하여 구체적으로 설명한다.
도 1은 본 개시의 일 실시 예에 따른 네트워크 시스템의 구성을 나타내는 도면이다.
도 1을 참조하면, 네트워크 시스템은 복수의 전자 장치(100-1 ~ 100-n), 제1 서버 장치(200), 제2 서버 장치(300)를 포함할 수 있으며, 각 구성들은 네트워크(10)를 통해 서로 연결될 수 있다.
네트워크(10)는 다양한 형태의 유무선 통신 네트워크, 방송 통신 네트워크, 광통신 네트워크, 클라우드 네트워크 등으로 구현될 수 있으며, 각 장치들은 별도의 매개체 없이 와이파이, 블루투스, NFC(Near Field Communication) 등과 같은 방식으로 연결될 수도 있다.
도 1에서는 전자 장치가 복수 개(100-1 ~ 100-n)인 것으로 도시하였으나, 반드시 복수 개의 전자 장치가 사용되어야 하는 것은 아니며 하나의 장치가 사용될 수도 있다. 일 예로, 전자 장치(100-1 ~ 100-n)는 스마트폰, 태블릿, 게임 플레이어, PC, 랩톱 PC, 홈서버, 키오스크 등과 같은 다양한 형태의 장치로 구현될 수 있으며, 이밖에 IoT 기능이 적용된 가전 제품 형태로도 구현될 수 있다.
사용자는 자신이 사용하는 전자 장치(100-1 ~ 100-n)를 통해서 다양한 정보를 입력할 수 있다. 입력된 정보는 전자 장치(100-1 ~ 100-n) 자체에 저장될 수도 있지만, 저장 용량 및 보안 등을 이유로 외부 장치로 전송되어 저장될 수도 있다. 도 1에서 제1 서버 장치(200)는 이러한 정보들을 저장하는 역할을 수행하고, 제2 서버 장치(300)는 제1 서버 장치(200)에 저장된 정보의 일부 또는 전부를 이용하는 역할을 수행할 수 있다.
각 전자 장치(100-1 ~ 100-n)는 입력된 정보를 동형 암호화하여, 동형 암호문을 제1 서버 장치(200)로 전송할 수 있다.
각 전자 장치(100-1 ~ 100-n)는 동형 암호화를 수행하는 과정에서 산출되는 암호화 노이즈, 즉, 에러를 암호문에 포함시킬 수 있다. 구체적으로는, 각 전자 장치(100-1 ~ 100-n)에서 생성하는 동형 암호문은, 추후에 비밀 키를 이용하여 복호화하였을 때 메시지 및 에러 값을 포함하는 결과 값이 복원되는 형태로 생성될 수 있다.
일 예로, 전자 장치(100-1 ~ 100-n)에서 생성하는 동형 암호문은 비밀 키를 이용하여 복호화 하였을 때 다음과 같은 성질을 만족하는 형태로 생성될 수 있다.
[수학식 1]
Dec(ct, sk) = <ct, sk> = M+e(mod q)
여기서 < , >는 내적 연산(usual inner product), ct는 암호문, sk는 비밀 키, M은 평문 메시지, e는 암호화 에러 값, mod q는 암호문의 모듈러스(Modulus)를 의미한다. q는 스케일링 팩터(scaling factor)(Δ)가 메시지에 곱해진 결과 값 M보다 크게 선택되어야 한다. 에러 값 e의 절대값이 M에 비해서 충분히 작다면, 암호문의 복호화 값 M+e 는 유효숫자연산에서 원래의 메시지를 동일한 정밀도로 대체할 수 있는 값이다. 복호화된 데이터 중에서 에러는 최하위 비트(LSB) 측에 배치되고, M은 차하위 비트 측에 배치될 수 있다.
메시지의 크기가 너무 작거나 너무 큰 경우, 스케일링 팩터를 이용하여 그 크기를 조절할 수도 있다. 스케일링 팩터를 사용하게 되면, 정수 형태의 메시지뿐만 아니라 실수 형태의 메시지까지도 암호화할 수 있게 되므로, 활용성이 크게 증대할 수 있다. 또한, 스케일링 팩터를 이용하여 메시지의 크기를 조절함으로써, 연산이 이루어지고 난 이후의 암호문에서 메시지들이 존재하는 영역, 즉, 유효 영역의 크기도 조절될 수 있다.
실시 예에 따라, 암호문 모듈러스 q는 다양한 형태로 설정되어 사용될 수 있다. 일 예로, 암호문의 모듈러스는 스케일링 팩터 Δ의 지수승 q=ΔL 형태로 설정될 수 있다. Δ가 2라면, q=210 과 같은 값으로 설정될 수 있다.
제1 서버 장치(200)는 수신된 동형 암호문을 복호화하지 않고, 암호문 상태로 저장할 수 있다.
제2 서버 장치(300)는 동형 암호문에 대한 특정 처리 결과를 제1 서버 장치(200)로 요청할 수 있다. 제1 서버 장치(200)는 제2 서버 장치(300)의 요청에 따라 특정 연산을 수행한 후, 그 결과를 제2 서버 장치(300)로 전송할 수 있다.
일 예로, 두 개의 전자 장치(100-1, 100-2)가 전송한 암호문 ct1, ct2가 제1 서버 장치(200)에 저장된 경우, 제2 서버 장치(300)는 두 전자 장치(100-1, 100-2)로부터 제공된 정보들을 합산한 값을 제1 서버 장치(200)로 요청할 수 있다. 제1 서버 장치(200)는 요청에 따라 두 암호문을 합산하는 연산을 수행한 후, 그 결과 값(ct1 + ct2)을 제2 서버 장치(300)로 전송할 수 있다.
동형 암호문의 성질상, 제1 서버 장치(200)는 복호화를 하지 않은 상태에서 연산을 수행할 수 있고, 그 결과 값도 암호문 형태가 된다. 본 개시에서는 연산에 의해 획득된 결과값을 연산 결과 암호문이라 지칭한다.
제1 서버 장치(200)는 연산 결과 암호문을 제2 서버 장치(300)로 전송할 수 있다. 제2 서버 장치(300)는 수신된 연산 결과 암호문을 복호화하여, 각 동형 암호문들에 포함된 데이터들의 연산 결과값을 획득할 수 있다.
제1 서버 장치(200)는 사용자 요청에 따라 연산을 수차례 수행할 수 있다. 이때, 제1 서버 장치(200)는 덧셈, 뺄셈 및 곱셈만으로 구성되는 연산뿐만 아니라, 로지스틱 함수 등 머신 러닝에 사용되는 비다항식 연산도 수행할 수 있다. 이런 경우, 제1 서버 장치(200)는 비다항식 연산에 대응되는 근사 다항식 함수를 산출하고, 산출된 근사 다항식 함수를 이용하여 비다항식 연산을 수행할 수 있다. 여기서 산출되는 근사 다항식 함수는 동형 암호에서 산출 가능한 사칙연산으로 구성되는 다항식이다. 구체적인 비다항식 근사 동작에 대해서는 도 4에서 설명한다.
이와 같이 제1 서버 장치(200)는 연산 동작을 수행할 수 있다는 점에서, 연산 장치라 지칭될 수도 있다.
한편, 도 1에서는 제1 전자 장치 및 제2 전자 장치에서 암호화를 수행하고, 제2 서버 장치가 복호화를 수행하는 경우를 도시하였으나, 이에 한정되는 것은 아니다.
도 2는 본 개시의 일 실시 예에 따른 연산 장치의 구성을 나타낸 블럭도이다.
구체적으로, 도 1의 시스템에서 제1 전자 장치, 제2 전자 장치 등과 같이 동형 암호화를 수행하는 장치, 제1 서버 장치 등과 같이 동형 암호문을 연산하는 장치, 제2 서버 장치 등과 같이 동형 암호문을 복호하는 장치 등을 연산 장치라고 지칭할 수 있다. 이러한 연산 장치는 PC(Personal computer), 노트북, 스마트폰, 태블릿, 서버 등 다양한 장치일 수 있다.
도 2를 참조하면, 연산 장치(400)는 통신 장치(410), 메모리(420), 디스플레이(430), 조작 입력 장치(440) 및 프로세서(450)를 포함할 수 있다.
통신 장치(410)는 연산 장치(400)를 외부 장치(미도시)와 연결하기 위해 형성되고, 근거리 통신망(LAN: Local Area Network) 및 인터넷망을 통해 외부 장치에 접속되는 형태뿐만 아니라, USB(Universal Serial Bus) 포트 또는 무선 통신(예를 들어, WiFi 802.11a/b/g/n, NFC, Bluetooth) 포트를 통하여 접속되는 형태도 가능하다. 이러한 통신 장치(410)는 송수신부(transceiver)로 지칭될 수도 있다.
통신 장치(410)는 공개 키를 외부 장치로부터 수신할 수 있으며, 연산 장치(400) 자체적으로 생성한 공개 키를 외부 장치로 전송할 수 있다.
그리고 통신 장치(410)는 외부 장치로부터 메시지를 수신할 수 있으며, 생성한 동형 암호문을 외부 장치로 송신할 수 있다.
또한, 통신 장치(410)는 암호문 생성에 필요한 각종 파라미터를 외부 장치로부터 수신할 수 있다. 한편, 구현시에 각종 파라미터는 후술하는 조작 입력 장치(440)를 통하여 사용자로부터 직접 입력받을 수 있다.
또한, 통신 장치(410)는 외부 장치로부터 동형 암호문에 대한 연산을 요청받을 수 있으며, 그에 따라 계산된 결과를 외부 장치에 전송할 수 있다. 여기서 요청받은 연산은 덧셈, 뺄셈, 곱셈과 같은 연산일 수 있으며, 비다항식 연산인 비교 연산일 수도 있다.
메모리(420)에는 연산 장치(400)에 관한 적어도 하나의 인스트럭션(instruction)이 저장될 수 있다. 구체적으로, 메모리(420)에는 본 개시의 다양한 실시 예에 따라 연산 장치(400)가 동작하기 위한 각종 프로그램(또는 소프트웨어)이 저장될 수 있다.
이러한 메모리(420)는 RAM이나 ROM, 플래시 메모리, HDD, 외장 메모리, 메모리 카드 등과 같은 다양한 형태로 구현될 수 있으며, 어느 하나로 한정되는 것은 아니다.
메모리(420)는 암호화할 메시지를 저장할 수 있다. 여기서 메시지는 사용자가 각종 인용한 각종 신용 정보, 개인 정보 등일 수 있으며, 연산 장치(400)에서 사용되는 위치 정보, 인터넷 사용 시간 정보 등 사용 이력 등과 관련된 정보일 수도 있다.
그리고 메모리(420)는 공개 키를 저장할 수 있으며, 연산 장치(400)가 직접 공개 키를 생성한 장치인 경우, 비밀 키뿐만 아니라, 공개 키 및 비밀 키 생성에 필요한 각종 파라미터를 저장할 수 있다.
그리고 메모리(420)는 후술한 과정에서 생성된 동형 암호문을 저장할 수 있다. 그리고 메모리(420)는 외부 장치에서 전송한 동형 암호문을 저장할 수도 있다. 또한, 메모리(420)는 후술하는 연산 과정에서의 결과물인 연산 결과 암호문을 저장할 수도 있다.
그리고 메모리(420)는 머신 러닝에 필요한 학습 모델을 저장할 수 있다. 그리고 메모리(420)는 해당 학습 모델에서 사용되는 비다항식 연산 함수 및 그에 대한 근사 다항식(본 개시에 따라 범위가 확장된 다항식 함수 또는 확장전 다항식 함수)를 저장할 수 있다.
디스플레이(430)는 연산 장치(400)가 지원하는 기능을 선택받기 위한 사용자 인터페이스 창을 표시한다. 구체적으로, 디스플레이(430)는 연산 장치(400)가 제공하는 각종 기능을 선택받기 위한 사용자 인터페이스 창을 표시할 수 있다. 이러한 디스플레이(430)는 LCD(liquid crystal display), OLED(Organic Light Emitting Diodes) 등과 같은 모니터일 수 있으며, 후술할 조작 입력 장치(440)의 기능을 동시에 수행할 수 있는 터치 스크린으로 구현될 수도 있다.
디스플레이(430)는 비밀 키 및 공개 키 생성에 필요한 파라미터의 입력을 요청하는 메시지를 표시할 수 있다. 그리고 디스플레이(430)는 암호화 대상이 메시지를 선택하는 메시지를 표시할 수 있다. 한편, 구현시에 암호화 대상은 사용자가 직접 선택할 수도 있고, 자동으로 선택될 수 있다. 즉, 암호화가 필요한 개인 정보 등은 사용자가 직접 메시지를 선택하지 않더라도 자동으로 설정될 수 있다.
조작 입력 장치(440)는 사용자로부터 연산 장치(400)의 기능 선택 및 해당 기능에 대한 제어 명령을 입력받을 수 있다. 구체적으로, 조작 입력 장치(440)는 사용자로부터 비밀 키 및 공개 키 생성에 필요한 파라미터를 입력받을 수 있다. 또한, 조작 입력 장치(440)는 사용자로부터 암호화될 메시지를 설정받을 수 있다.
프로세서(450)는 연산 장치(400)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(450)는 메모리(420)에 저장된 적어도 하나의 인스트럭션을 실행함으로써 연산 장치(400)의 동작을 전반적으로 제어할 수 있다. 이러한 프로세서(450)는 CPU(central processing unit), ASIC(application-specific integrated circuit)과 같은 단일 장치로 구성될 수 있으며, CPU, GPU(Graphics Processing Unit) 등의 복수의 장치로 구성될 수도 있다.
프로세서(450)는 전송하고자 하는 메시지가 입력되면 메모리(420)에 저장할 수 있다. 그리고 프로세서(450)는 메모리(420)에 저장된 각종 설정 값 및 프로그램을 이용하여, 메시지를 동형 암호화할 수 있다. 이 경우, 공개 키가 사용될 수 있다.
프로세서(450)는 암호화를 수행하는데 필요한 공개 키를 자체적으로 생성하여 사용할 수도 있고, 외부 장치로부터 수신하여 사용할 수도 있다. 일 예로, 복호화를 수행하는 제2 서버 장치(300)가 공개 키를 다른 장치들에게 배포할 수 있다.
자체적으로 키를 생성하는 경우, 프로세서(450)는 Ring-LWE 기법을 이용하여 공개 키를 생성할 수 있다. 구체적으로 설명하면, 프로세서(450)는 먼저 각종 파라미터 및 링을 설정하여, 메모리(420)에 저장할 수 있다. 파라미터의 예로는 평문 메시지 비트의 길이, 공개 키 및 비밀 키의 크기 등이 있을 수 있다.
링은 다음과 같은 수학식으로 표현될 수 있다.
[수학식 2]
Figure 112021040565344-pat00004
여기서 R은 링, Zq는 계수, f(x)는 n차 다항식이다.
링(Ring)이란 기 설정된 계수를 가지는 다항식의 집합으로, 원소들 사이에 덧셈과 곱셈이 정의되어 있으며 덧셈과 곱셈에 대해서 닫혀 있는 집합을 의미한다. 이러한 링은 환으로 지칭될 수 있다.
일 예로, 링은 계수가 Zq인 n차 다항식의 집합을 의미한다. 구체적으로는, n이 Φ(N)일 때, N차 사이클로토믹 다항식 (N-th cyclotomic polynomial)을 의미한다. (f(x))란 f(x)로 생성되는 Zq[x]의 이데알(ideal)을 나타낸다. Euler totient 함수 Φ(N)이란 N과 서로소이고 N보다 작은 자연수의 개수를 의미한다. ΦN(x)를 N차 사이클로토믹 다항식으로 정의하면, 링은 다음과 같은 수학식 3으로도 표현될 수 있다.
[수학식 3]
Figure 112021040565344-pat00005
한편, 상술한 수학식 3의 링은 평문 공간에서 복소수를 갖는다. 한편, 동형 암호문에 대한 연산 속도를 향상하기 위하여, 상술한 링의 집합 중 평문 공간이 실수인 집합만을 이용할 수도 있다.
이와 같은 링이 설정되면, 프로세서(450)는 링으로부터 비밀 키(sk), 공개키(pk)를 산출할 수 있다. 이와 같은 산출 동작은 다른 연산 장치에서 생성하여 해당 연산 장치(400)에 제공될 수도 있다.
그리고 프로세서(450)는 메시지에 대한 동형 암호문을 생성할 수 있다. 구체적으로, 프로세서(450)는 메시지에 대해서 앞서 생성된 공개 키를 적용하여 동형 암호문을 생성할 수 있다. 이때, 프로세서(450)는 암호문의 길이를 스케일링 팩터의 크기에 대응되도록 생성할 수 있다.
그리고 프로세서(450)는 동형 암호문이 생성되면 메모리(420)에 저장하거나, 사용자 요청 또는 기 설정된 디폴트 명령에 따라 동형 암호문을 다른 장치에 전송하도록 통신 장치(410)를 제어할 수 있다.
한편, 본 개시의 일 실시 예에 따르면, 패킹(packing)이 이루어질 수도 있다. 동형 암호화에서 패킹을 이용하게 되면, 다수의 메시지를 하나의 암호문으로 암호화하는 것이 가능해진다. 이 경우, 연산 장치(400)에서 각 암호문들 간의 연산을 수행하게 되면, 결과적으로 다수의 메시지에 대한 연산이 병렬적으로 처리되므로 연산 부담이 크게 줄어들게 된다.
구체적으로는, 프로세서(450)는 메시지가 복수의 메시지 벡터로 이루어지는 경우, 복수의 메시지 벡터를 병렬적으로 암호화할 수 있는 형태의 다항식으로 변환한 후, 그 다항식에 스케일링 팩터를 승산하고 공개 키를 이용하여 동형 암호화할 수도 있다. 이에 따라, 복수의 메시지 벡터를 패킹한 암호문을 생성할 수 있다.
그리고 프로세서(450)는 동형 암호문에 대한 복호가 필요한 경우, 동형 암호문에 비밀 키를 적용하여 다항식 형태의 복호문을 생성하고, 다항식 형태의 복호문을 디코딩하여 메시지를 생성할 수 있다. 이때 생성한 메시지는 앞서 설명한 수학식 1에서 언급한 바와 같이 에러를 포함할 수 있다.
그리고 프로세서(450)는 암호문에 대한 연산을 수행할 수 있다. 구체적으로, 프로세서(450)는 동형 암호문에 대해서 암호화된 상태를 유지한 상태에서 덧셈, 뺄셈, 또는 곱셈 등의 연산을 수행할 수 있다.
또한, 프로세서(450)는 암호문에 대해서도 덧셈, 뺄셈 또는 곱셈 이외의 연산을 갖는 다항식에 대한 연산을 수행할 수 있다. 구체적으로, 동형 암호문은 덧셈, 뺄셈, 곱셈에 대해서는 닫혀있으나, 이외의 연산에 대해서는 닫혀있지 않다.
따라서, 덧셈, 뺄셈, 곱셈 이외의 연산에 대해서는 상술한 3개의 연산으로 표현되는 근사 연산식을 이용하여야 한다. 이러한 점에서, 프로세서(450)는 덧셈, 뺄셈 또는 곱셈 이외의 연산에 대해서는 요청되는 연산에 대응되는 근사 함수를 이용하여 연산을 수행할 수 있다.
이를 위하여, 종래 널리 알려지는 근사함수(예를 들어, Taylor, Least square, minimax)를 이용할 수 있으나, 종래의 근사 함수는 좁은 범위를 갖는다는 점에서, 머신 러닝에 적용되기 어려운 점이 있다.
이러한 문제점을 해결하기 위하여, 본 개시에서는 제1 범위 내에서 기설정된 정확도를 갖는 제1 근사 함수를 산출(또는 선정)하고, 해당 제1 근사 함수를 제1 범위보다 넓은 제2 범위로 확장한 제2 근사 함수를 산출하여 이용한다. 이와 같이 기존보다 넓은 범위를 갖는 근사 함수를 이용함으로써, 기존의 제1 근사 함수의 좋은 특징을 보전하면서도 동시에 머신 러닝에 적용하는 것이 가능하다. 구체적인 근사 함수 산출 방법에 대해서는 도 5 내지 도 11을 참조하여 후술한다.
그리고 연산 장치(400)는 연산이 완료되면, 연산 결과 데이터로부터 유효 영역의 데이터를 검출할 수 있다. 구체적으로, 연산 장치(400)는 연산 결과 데이터를 라운딩 처리를 수행하여 유효 영역의 데이터를 검출할 수 있다. 라운딩 처리란 암호화된 상태에서 메시지의 반올림(round-off)을 진행하는 것을 의미하며, 다르게는 리스케일링(rescaling)이라고 할 수도 있다.
또한, 연산 장치(400)는 연산 결과 암호문 내의 근사 메시지 비중이 임계치를 초과하면, 암호문에 대한 재부팅 동작을 수행할 수 있다.
도 3은 본 개시의 연산 장치의 연산 동작을 설명하기 위한 도면이다.
도 3을 참조하면, 각 동형 암호문(10, 20)은 근사 메시지 영역(11, 21)을 각각 포함할 수 있다. 근사 메시지 영역(11, 21)에는 메시지 및 에러(m1+e1, m2+e2)가 함께 들어가 있다.
연산 장치(400)는 두 동형 암호문(10, 20)을 입력 값으로 하여, 특정 연산을 수행할 수 있다. 이러한 연산은 덧셈, 뺄셈, 곱셈으로 구성되는 다항식 연산일 수 있으며, 근사 함수의 이용이 필요한 다항식 연산 또는 비다항식 연산일 수도 있다.
비다항식 연산에는 최대값 산출, 최소값 산출, 크기 비교 등과 같은 비교 연산 또는 머신 러닝에서는 로지스틱 함수, hypertangent 함수, erf 함수 등이 있을 수 있다. 이하에서는 머신 러닝에서 가장 많이 사용되는 로지스틱 함수에 대한 근사 함수의 산출 동작에 대해서 설명하나, 이하의 동작은 로지스틱 함수뿐만 아니라 다른 비다항식 연산에도 적용될 수 있다.
앞서 설명한 바와 같이, 비다항식 연산을 동형 암호에 적용하기 위해서는 비다항식에 대한 다항식 근사가 요구된다. 그러나 비다항식의 입력이 동형 암호에 의하여 은폐되는 경우, 근사치에 대한 도메인은 입력의 모든 후보를 초과할 수 있을 정도로 커져야 한다.
그러나 기존의 알려진 다항식 근사 방법들은 큰 도메인에 적용될 때 동형 암호에 의해 산출되는데 한계가 있다. 예를 들어, [-R, R] 범위 상의 로지스틱 함수의 최소 근사치를 산출하기 위해서는 동형 곱셈이 O(
Figure 112021040565344-pat00006
)개 요구된다. 또한, 동형암호의 매개변수는 산출 중에 큰 중간 값을 갖게 되어 실용적이지 않다.
따라서, 본 개시에서는 넓은 도메인을 갖는 효율적인 다항식 근사 방법을 설명한다. 본 개시에 따른 방법을 이용함으로써 동형 곱셈이 O(log R)의 수만으로 [-R, R] 상의 로지스틱 함수를 근사할 수 있다. 또한, 산출의 중간 값은 작은 값을 유지하므로 합리적인 동형 암호 파라미터를 사용할 수 있다.
한편, 상술한 연산에 의한 암호문(30)은 각 근사 메시지 간의 연산 결과(m3+e3)가 담긴 근사 메시지 영역(31)을 포함할 수 있다. 만약, 평문 공간(32)이 없어지거나 한계치보다 작아지게 된 경우, 연산 장치(400)는 재부팅 동작을 수행할 수 있다.
도 4는 본 개시의 일 실시 예에 따른 암호문 연산 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 동형 암호문에 대한 비다항식 연산 명령을 수신할 수 있다(S410). 이러한 명령은 외부 장치로부터 입력될 수 있으며, 연산 장치에서 직접 입력될 수도 있다. 그리고 이러한 비다항식 연산은 로지스틱 함수를 이용한 연산 또는 로지스틱 회귀 분석 등일 수 있다.
그리고 비다항식 연산에 대응되는 근사 다항식 함수를 산출한다(S420). 구체적으로, 제1 범위 내에서 비다항식 연산과 기설정된 정확도를 갖는 제1 근사 다항식 함수를 결정하고, 제1 범위 내에서는 제1 범위 내에서의 제1 근사 다항식의 계산 값에 대응되는 값을 갖고, 제1 범위 이외의 제2 범위에서는 제1 범위의 끝단에서의 제1 근사 다항식의 계산 값에 대응되는 값을 갖는 제2 근사 다항식을 산출할 수 있다.
그리고 산출된 다항식 함수를 이용하여 동형 암호문에 대한 연산을 수행한다(S430).
그리고 연산된 동형 암호문을 출력할 수 있다(S440). 구체적으로, 연산을 요청한 장치에 연산 결과를 출력할 수 있다. 만약 연산을 다른 장치에서 요청한 것이며, 연산 결과를 다른 장치에 전송할 수 있다.
이상과 같이 본 개시에 따른 암호문 연산 방법은 넓은 도메인을 갖는 근사 다항식을 이용하여 연산을 수행하는바, 입력의 모든 후보를 알기 어려운 머신 러닝에서 동형 암호문을 연산 처리하는 것을 가능하게 한다.
이하에서는 보다 자세히 본 개시에 따른 근사 다항식 산출 동작에 대해서 설명한다.
머신러닝에 동형 암호를 적용하기 위해서는 비다항식에 대한 근사화가 요구된다. 그러나 종래의 근사화는 좁은 범위(즉, 좁은 도메인 또는 좁은 정의항)를 갖기 때문에, 학습시 사용한 데이터 세트와 다른 범위의 데이터를 이용하는 경우에 학습 모델이 동작하지 않을 잠재적 문제점이 있다.
이러한 점을 해결하기 위하여, 넓은 범위를 갖는 것으로 알려진 다항식 근사 방식을 이용할 여지가 있다. 그러나 넓은 범위를 갖는 알려진 다항식 근사는 동형 암호에서 계산되기 어려운 특징이 있다. 구체적으로, 근사치 구간이 넓어질수록 근사 다항식의 차수 또한 커진다. 예를 들어, 고정 상한 놈 오차(fixed supremum norm error) e를 갖도록 [-R, R] 범위의 로지스틱 함수 σ(x) = 1=(1+exp(-x)) 의 근사를 위해서는 O(R) 차수의 다항식이 요구된다.
특히, 다항식 연산 과정에 곱셈의 수를 최소화하는 Paterson-Stockmeyer 방법을 사용하더라도, 근사치를 산출하기 위해서는 동형 곱셈은 O(
Figure 112021040565344-pat00007
)개 요구된다.
또한, 근사 다항식의 차수가 크면 산출에 큰 중간 값이 유도된다. 예를 들어, 상한 놈 오차가 0.05로 [-1000; 1000] 범위에서 로지스틱 함수에 대한 minnimax 근사 다항식은 593 차수를 갖는다. 차수 d를 갖는 다항식에 대한 Paterson-Stockmeyer 방법을 사용하여 산출 동안에
Figure 112021040565344-pat00008
를 계산하여도 산출에 100025 연산이 요구된다. 또한, 잠재적인 거대한 중간 값을 모두 포함하려면 동형 암호의 평문 공간은 충분히 커야 하며, 이는 큰 동형 암호 파라미터를 수반하게 된다.
이와 같이 기존에 알려진 넓은 범위의 다항식 근사는 높은 계산 비용과 매우 큰 동형 암호 파라미터가 요구되어 머신러닝에 적용하기 어려운 한계가 있다.
이러한 문제점들을 해결하기 위하여, 본 개시에서는 도메인 확장 기능(DEF, domain extension functions)을 이용한다. 여기서 도메인 확장 기능은 좁은 제1 범위로부터의 값을 보정하고, 2차 영역으로부터 제1 인터벌의 가장 가까운 포인트로 각 아웃라인을 가져오는 기능이다. 구체적으로, 제1 범위에서는 해당 범위에서의 잘 동작하는 제1 근사 다항식의 계산 값에 대응되는 값을 출력하고, 제1 범위보다 큰 제2 범위에서는 제1 범위의 끝단에서의 제1 근사 다항식의 계산 값에 대응되는 값을 갖는 제2 근사 다항식을 산출하는 기능이다.
이와 같이 기존의 근사 다항식 방법과 도메인 확장 기능과 결합하면, 1차 도메인의 좋은 특징 값을 보전하면서도 동시에 2차 도메인으로부터 아웃라인을 합리적으로 관리할 수 있다. 도메인 확장 기능은 특히 목표 비 다항식 함수가 1차 간격에 특이하고 2차 간격에 평평한 경향이 있는 경우에 유리하다. 로지스틱 함수, hypertangent 함수, erf 함수, arctangent 함수, 가우시안 함수, ReLU-n 함수가 이러한 특징을 갖는다. 이하에서는 설명을 용이하게 하기 위하여, 로지스틱 함수 및 로지스틱 회귀 분석에 초점을 맞춰 설명한다.
본 개시에 따른 방법은 동형 곱셈에 o(log R)의 수만을 사용하고, minimax 다항식 근사는 O(
Figure 112021040565344-pat00009
)개의 동형 곱셈만이 요구된다. 또한, [-1000, 1000] 범위를 갖는 로지스틱 함수를 근사함에 있어서, 본 방법에 따른 중간 값은 10003보다 작다. 이는 기존의 근사 방식에 필요한 중간 값인 100025 보다 훨씬 합리적이다.
마지막으로, 상술한 도메인 확장 기능을 사용하여 특정 데이터 또는 하이퍼파라미터에 치우치지 않는 로지스틱 회귀 분석을 위한 새로운 동형 암호 기반의 방법을 설명한다. 먼저, 로지스틱 회귀 분석 모델에서 각 로지스틱 함수의 다항식 근사치에 대한 간격을 계산한다. 비록 추정된 간격이 매우 넓더라도, 도메인 확장 기능은 동형 암호로 효율적인 산출이 가능하도록 할 수 있다.
먼저, 이하에서는 로지스틱 회귀에 대한 내용을 먼저 설명한다.
로지스틱 회귀는 이항 분류 문제를 해결하는 잘 알려진 모델이다. 로지스틱 회귀 모형은 훈련된 가중치 W와 바이어스 b로 구성되며, 각 기준점 x에 대해 특정 클래스 '1'로 분류될 확률(
Figure 112021040565344-pat00010
을 부여한다. 이하에서는 두 개의 클래스를 '1', '-1'로 정의하였다. 또한, 각 기준점 x를 값 1이 있는 추가 특징 ( WTx+b=(WT,b)(x,1) as WTx)과 결합하였다.
가중치 및 로지스틱 회귀 모델의 바이어스(b)를 학습하기 위하여, 이하에서는 다음과 같은 비용 함수를 이용하는 것으로 가정한다.
[수학식 4]
Figure 112021040565344-pat00011
여기서, x는 학습 데이터(또는 학습 자료(datum)), W는 가중치, y는 클래스, n은 데이터 수이다.
학습 과정은 주어진 학습 데이터에 대해서 비용 함수를 최소화함으로써 가중치 및 바이어스를 탐색하는 것이다. 보조 파라미터, 학습률(α)은 가중치 및 바이어스에 대해서 다음과 같이 업데이트될 수 있다.
[수학식 5]
Figure 112021040565344-pat00012
여기서, W는 가중치, α 학습률(learning rate), y는 클래스, x는 학습 데이터, n는 데이터 수이다.
이하에서는 다항식 근사 방식에 대해서 설명한다. 이하에서는 시그모이드 함수를 특정하여 설명하나, 본 개시에 따른 근사화 방식은 시그모이드 함수 이외에 다른 비다항식 함수에도 적용될 수 있다.
<도메인 확장 함수>
본 개시에 따른 도메인 확장 함수 Dr(x)를 다음과 같이 정의한다.
[수학식 6]
Figure 112021040565344-pat00013
여기서, Dr(x)는 도메인 확장 함수, x는 입력 값, r는 정수이다.
f (x) = Dr(x)와 같이 정수 r이 존재하면, 함수 F(x)가 r-도메인 확장 함수(r-DEF)라고 지칭한다. 만약 필요하지 않다면 r을 생략할 수 있다.
r > 0인 P:[-r, r] → R이 주어진다고 가정하면, r-도메인 확장 함수로 P를 구성함으로써 다음과 같이 함수 도메인을 확장할 수 있다.
[수학식 7]
Figure 112021040565344-pat00014
원래 도메인 [-r, r]으로부터 입력이 온 경우, 동일한 기능을 수행한다. 따라서, 도메인 확장 함수가 실제로 주어진 함수의 도메인을 확장한다고 할 수 있다.
<다항식 DEF>
동형 암호 알고리즘에 도메인 확장 함수를 활용하기 위해 다항식 근사를 고려한다. 특히, 이하의 동작은 도메인 확장 함수의 핵심 속성을 만족하는 다항식을 찾는 것을 목표로 한다. r-도메인 확장 함수(Dr(x))의 다음 속성을 통해 함수의 정의역을 확장할 수 있다.
Prop I. Dr(x) = x on [=r, r]
Prop II.
Figure 112021040565344-pat00015
Prop III. The image of Dr(x) is bounded by [-r, r]
주어진 함수 P:[-r, r] → R의 경우, Prop III를 사용하면 Dr(x)와 함께 P(x)를 적절하게 합성할 수 있다. Prop I는 [-r, r]에서 P(x)를 보존하기 위한 구성을 만들고, Pro II는 가장 가까운 경계에서 값을 모방하도록, 아웃라인 입력을 합리적으로 관리할 수 있도록 한다.
다항식의 경우, 위의 모든 핵심 속성을 만족시키는 것은 어렵다. 대안적으로 다음과 같이 각 속성의 대략적인 버전을 이용할 수 있다. 주어진 다항식 Pr 및 구간 [-R, R]의 경우 다음 속성을 고려할 수 있다.
Prop I'. Pr(x)
Figure 112021040565344-pat00016
x on [=r, r]
Prop II'.
Figure 112021040565344-pat00017
Prop III'. The image of Pr(x) on [-R,R] is bounded by [-r, r]
이러한 속성은 Pr(x)을 적은 오류와 함께 함수의 정의역을 [-r, r]에서 [-R, R]로 확장할 수 있다.
이제 일부 r에 대해서 수정된 Prop I', II', III'을 만족하는 다항식으로 [-R, R] 상의 r-다항식 도메인 확장 기능(r-polyDEF)을 정의한다. 필요하지 않은 경우, r은 생략될 수 있다.
이와 같은 다항식 도메인 확장 함수는 [-r, r] 범위 내의 값은 보전하고, [-r, r] 범위 외는 [-r, r]의 가장 가까운 점으로부터 가져온다. 다항식 도메인 확장 함수는 잠재적인 적은 오류를 갖는 유사한 특성을 갖는다. 따라서, [-r, r] 상의 f(x) 함수를 [-R, R] 상의 다항식 도메인 확장 함수로 구성하면, [-r, r] 상의 f(x)의 특징은 보존되고, [-R, R]\[-r, r]로부터 입력은 합리적으로 관리될 수 있다.
<Iterative Construction of polyDEF. >
이하에서는, 기본 함수 B(x)가 [-L, L] 상의 1-polyDEF로 하고, L > 1이 확장 비율이라고 가정한다.
각 양의 정수 n >0에 대한 Ln으로 B(x)가 스케일링된 함수인 Bn(x)(예를 들어,
Figure 112021040565344-pat00018
)를 고려한다.
각 n에 대해서 Fn(x) = B0 °B1 °…°Bn-1(x)라고 하고, Fn(x)는
Figure 112021040565344-pat00019
와 같다면, [-Ln, Ln]상에서 Prop I', II', III'을 Fn(x)를 만족하는지 유도하여 확인할 수 있다. 따라서 Fn은 [-Ln, Ln]의 1-polyDEF이다.
r>0에 대한, [-Ln, Ln]에서 생성된 1-polyDEF의 크기를 조정하여 [-rLn, rLn] 상의 r-polyDEF를 얻을 수 있다. 정확하게는 다음과 같은 수학식 8(Fn,r)을 산출할 수 있다.
[수학식 8]
Figure 112021040565344-pat00020
<예시 1>
Figure 112021040565344-pat00021
이 [-1.5, 1.5] 범위의 1-polyDEF이므로 확장 비율이 1.5인 기본 함수로 간주할 수 있다. 위에 구조를 사용함으로써 B(x)로 Fn, r(x)를 생성할 수 있으며, 생성된 Fn,r(x)은 [-1.5nr, 1.5nr]의 r-polyDEF가 될 수 있다.
도 5는 본 개시의 제1 실시 예에 따라 확장된 다항식의 예를 도시한 도면이다.
도 5를 참조하면, 기본 함수(Bx)는
Figure 112021040565344-pat00022
를 사용한 1-polyDEF의 구성이다. 그리고 B1(x)는 1차 스케일링된 함수이고, B2(x)는 기본 함수에 2차 스케일링된 함수이다. 이러한 기본 함수와 제1 스케일링 함수를 합성하고, 이후에 제1 스케일링 함수와 제2 스케일링 함수를 합성하여 범위가 확장된 다항식을 생성할 수 있다. 최종 생성된 F3(x) 은 [-1.53, 1.53] 상의 1-polyDEF이다. 이와 같은 근사 다항식 생성 동작에 대한 구체적인 알고리즘은 도 8과 관련하여 다시 한번 설명한다.
이하에서는 시그모이드 함수의 범위를 확장하는 경우를 설명한다.
시그모이드 함수는 S자 형상을 갖는 함수이다. 본 개시에서 설명을 용이하게 하기 위하여 로지스틱 함수 σ(x) = 1/(1+exp(-x))를 중점적으로 설명하지만, tanf 함수, erf 함수 등과 같은 다른 시그모이드 함수에도 적용될 수 있다.
다항식 도메인 확장 함수는 σ(x)의 다항식 근사의 유효한 도메인을 확장할 수 있다. 이하에서는, [-r, r] 간격에서 σ(x)에 대한 다항식 근사 P(x)가 주어졌다고 가정한다. 그리고. σ(x)
Figure 112021040565344-pat00023
1이 되도록 r이 충분히 크다고 가정한다. 그러면 확장 비율 L을 갖는 r-polyDEF Fn,r은 P(x)의 도메인은 [-Lnr, Lnr] 로 확장될 수 있다.
Figure 112021040565344-pat00024
따라서, Fn,r(x)를 효율적으로 평가한 후에는 좁은 도메인 [-r, r] 상의 근사 다항식을 넓은 구간 [-Lnr, Lnr] 상의 로지스틱 함수로 산출할 수 있다.
예를 들어, [-r, r] 범위를 갖는 시그모이드 함수의 근사 다항식을 P(x)라고 가정하면, 앞선 예 1과 같이 근사 도메인 [-r, r]을 [-1.5nr, 1.5nr]로 확장할 수 있다. 이러한 동작을 정리한 알고리즘 2는 도 8에 자세히 기재하였다. 이러한 알고리즘 2를 이용하면 종래의 좁은 범위에서 잘 동작하는 근사 다항식을 보다 넓은 범위에서 동작하는 근사 다항식으로 확장할 수 있다. 이하에서는 기존 다항식의 범위를 확장한다는 표현을 사용하였지만, 새로운 다항식을 생성한다고 표현할 수도 있다.
이하에서는 예제 1의 polyDEF가 로지스틱 함수의 다항식 근사의 도메인을 확장하는 예에 대한 증명을 설명한다.
<증명 1>
r≥12 이고, sup-error ε를 갖고, [-r, r] 범위를 갖는 σ(x)의 근사 다항식 P(x)에 대해서 알고리즘 2는 ε+0.02 미만의 오차로 [-1.5nr, 1.5nr]상으로 σ(x)를 균일하게 근사할 수 있다.
Proof, x∈[0, 1.5nr]가 주어진 것으로 가정하면, 각 m에 대해서 xm = BM-n °Bm-n+1 °…°Bn(x)로 할 수 있다. 그리고,
[수학식 7]
Figure 112021040565344-pat00025
따라서, x≥5이면, |σ(x)-σ(Fn,r(x))| ≤ |1-σ(Fn,12(5))| ≤ 0.02 이다.
그리고 2.5≤x≤5 이면,
[수학식 8]
Figure 112021040565344-pat00026
그리고 0≤x≤2.5
[수학식 9]
Figure 112021040565344-pat00027
따라서, 각 x∈[0, 1.5nr]에 대해서,
[수학식 10]
|σ(x)-P °σ(Fn,r(x))| ≤ |σ(x)-σ(Fn,r(x))| - |σ°Fn,r(x)-P°Fn,r(x)| ≤ ε+ 0.02
유사하게, x∈[-1.5nr, 0]에 대해서 동일한 결과를 유지한다.
이와 같은 도메인 확장 함수는 일부 상수 c1, c2에 대해서,
Figure 112021040565344-pat00028
,
Figure 112021040565344-pat00029
되도록 연속 함수 f(x)를 사용할 수 있다. 시그모이드 함수는 그러한 조건을 만족시킨다. 동시에 가우스 함수와 같은 c0 함수 또한, 이러한 속성이 있다. 이를 통해 도메인 확장 함수 접근 방식을 활용하여 c0 함수에 대한 근사 다항식의 도메인을 확장할 수 있다.
이하에서는 상술한 방식을 이용한 알고리즘의 안정성 및 효율에 대해서 설명한다.
앞에서 논의했듯이, 동형 암호를 기반으로 한 알려진 넓은 범위의 다항식 근사는 비실용적이다. 반면에, 본 개시에 따른 다항식 근사의 구조는 단순한 기본 함수의 구성으로 안정적이고 효율적이다.
앞서 설명한 polyDEF 구조는 로지스틱 함수의 근사화를 반복적인 방법으로 제공한다. 즉, 간단한 함수를 반복적으로 계산하여 로지스틱 함수를 넓은 간격을 갖는 로지스틱 함수를 산출할 수 있다.
상술한 예 2의 경우에서, 좁은 [-r, r] 영역 상의 근사 다항식을
Figure 112021040565344-pat00030
를 계산하여 [-1.5nr,1.5nr] 상의 로지스틱 함수로 산출할 수 있다.
Bn(x)는 저차 다항식이고, 계수가 완만하기 때문에 중간 값과 동형 암호를 동반한 오차가 범람하지 않는다. 결과적으로 본 개시에 따른 polyDEf 구조는 넓은 영역의 로지스틱 함수를 근사화하는 안정적인 방법을 제공한다.
또한, 다항식 도메인 확장 함수를 이용한 도메인 확장은 일정 횟수의 동형 암호 곱셈만을 허용한다. 즉, 상술한 도메인 확장 함수의 구성을 사용하여, σ(x) = 1/(1+exp(-x))를 슈퍼놈 에러 0.05를 갖는 넓은 범위의 다항식으로 근사할 수 있다.
앞서 설명한 증명 1은 도메인 확장 함수가 O(lnR) 동형 곱셈을 갖고 [-R, R] 범위를 갖는 로지스틱 함수를 균일하게 근사할 수 있음을 의미한다. 이는 동형 곱셈의 수를 최소화하는 Paterson-Stockmeyer 알고리즘에서도 최소한
Figure 112021040565344-pat00031
HE 곱셈이 필요한 미니맥스 다항식 근사보다 점근적으로 더 좋다.
예제 1에서, 기본 함수
Figure 112021040565344-pat00032
에 의해 구성된 다항식 도메인 확장 함수가 각 구성 요소가 도메인을 1.5배 확장하는 것을 설명하였다. 이하에서는 (a) 보다 높은 차수의 기본 함수 (b) 좁은 간격에서의 도메인 확장 함수에 친화적인 근사화 (c) 차수 3의 파동 기준 함수 등 세 가지 변형을 설명한다.
(a) 고차원 기본 함수
각 양수 m에 대해서,
Figure 112021040565344-pat00033
라고 하자. 여기서,
Figure 112021040565344-pat00034
은, 확장 비율이다. 그리고 Bm,0(x)는 [-Lm, Lm] 범위를 갖는 2m+1 차수를 갖는 1-polyDEF이면, Bm,0(x)를 기본 함수로 취함으로써, 앞서 설명한 바와 같이
Figure 112021040565344-pat00035
상의 r-polyDEF를 구성할 수 있다. 보다 구체적으로, 스케일링된 함수
Figure 112021040565344-pat00036
와 그들의 구성 Fm,n,r(x)=r·Bm,0°Bm,1°…°Bm,n-1(x/r)을 고려하면, Fm,n,r(x)은
Figure 112021040565344-pat00037
상의 r-polyDEF이다.
Fm,n,r(x)은 계산을 위하여, 확장 비율이
Figure 112021040565344-pat00038
이면
Figure 112021040565344-pat00039
동형 곱셈이 필요하다. m=9이 m=3보다 효율적인 것은 사실이며, m=3은 산출 과정에서 중간 값을 보다 작게함을 보장할 수 있다.
Remark2
예제 1에서 생성한 다항식 도메인 확장 함수는 실제로 F3,n,r이다. 여기서 확장 비율은 L3=1.5이다.
<Remark 3>
Bm,0의 구조는 부호 함수를 반복 연산을 통하여 근사화하는 방법에서 영감을 얻었다. 본 개시에서는 위에 작업과 마찬가지로 반복 동작을 통해 기호 함수를 근사할 수 있는 근사 기본 함수를 찾는 것을 목적으로 한다.
<Minimax Approximation with Monotone polyDEFs>
알고리즘 1에서 [-r, r] 범위의 로지스틱 함수 σ(x) 의 근사 P(x)를 가정한다. 미니맥스 근사치가 최상의 균일한 성능을 보장할 수 있다고 생각할 수 있다. 그러나 모노톤 다항식 도메인 확장 함수를 사용할 때, [-r, r] 상에 미니맥스 근사보다 더 나은 근사치가 존재할 수 있다.
로지스틱 함수의 미니맥스 근사 대신에 [-r, r] 범위 상의
Figure 112021040565344-pat00040
의 미니맥스 근사인 다른 근사인 Q(x)(예를 들어,
Figure 112021040565344-pat00041
)를 사용할 수 있다. 다항식 도메인 확장 함수는 엄격하게 증가하면, 그것은 역함수
Figure 112021040565344-pat00042
가 된다.
또한 Q°Fn(x)는 다음과 같은 P°Fn(x)보다 낮은 균일도 에러를 보장하는 동안 [-1.5nr, 1.5nr] 상에 σ(x)를 근사할 수 있다.
[수학식 11]
Figure 112021040565344-pat00043
모든 것을 종합하면,
Figure 112021040565344-pat00044
는 [-1.5nr, 1.5nr] 상의 σ(x) 균일한 근사치를 제공한다. 이와 같은 최적은 모노톤 다항식 도메인 확장 기능을 수용하고, Fn,m,r이 상술한 모노톤을 구성할때 동작할 수 있다.
<Wavy polyDEF>
이하에서는, 모노톤보다 훨씬 도메인을 확장할 수 있는 비 모노톤 기본 함수를 설명한다.
안정성을 유지하기 위하여, 3차 기본 함수에 초점을 맞춘다. 예시 1에서, 사용한 것과 동일한 함수, 즉 [-1.5, 1.5] 범위를 갖는
Figure 112021040565344-pat00045
를 사용한다. 그러나 기본 함수는 넓은 범위 상의
Figure 112021040565344-pat00046
의 1-polyDEF이며, 더 높은 확장 비율 L>1.5를 사용할 수 있다.
B(X)의 2.45n으로 스케일된 함수 및 그들의 구성은 다음과 같다.
[수학식 12]
Figure 112021040565344-pat00047
Fn(x) := B0° B1° …°Bn-1(x)
Figure 112021040565344-pat00048
로지스틱 함수σ(x)에 대한 적절한 polyDEF를 구성하기 위하여, 파라미터(L=2.45, r=14.5)를 이용한다.
위에 파라미터를 신뢰할 수 있는 이유는 다음과 같다. ε<0.05 초규격 오차를 갖는 [-r, r] 상의 σ(x)의 다항식 근사 P(x)가 주어졌다고 가정하면, P °Fn,r(x)이
Figure 112021040565344-pat00049
상의 σ(x)를 적절하게 근사하였다고 말할 수 있다.
τ=0.27이라고 하고, x ∈ [-τ, τ]에 대해서 각 Bn(x)이 엄격하게 증가하므로 Fn(x)도 엄격하게 증가한다. 그리고, Fn(x)
Figure 112021040565344-pat00050
x이다. 따라서, 모든 x ∈ [-τr, τr]에 대해서 P °Fn,r(x)
Figure 112021040565344-pat00051
P(x)
Figure 112021040565344-pat00052
σ(x)이 성립된다.
x ∈ [τ, Ln+1]에 대해서, Bn(x)이 모노톤이 아닐 수 있다. 그러나, Bn(Ln+1) = Ln·B(L) > LnB(τ) > Bn(τ)이기 때문에, Bn(x)∈ [Bn(τ), Ln]이 유지된다.
수학적으로, 모든 x ∈ [τr, Ln+1r]에 대해서 Fn,r(τr) ≤ Fn,r(x) ≤ r이 유지된다고 추론할 수 있다. 그러나, Fn,r(τ) > 3.84, σ(Fn,r(τ)) > σ(3.84) > 0.978 은 1에 매우 가깝다. 모든 x ∈ [τr, Ln+1+r]에 대해서, P°Fn,r(x)
Figure 112021040565344-pat00053
σ(x)°Fn,r(x)
Figure 112021040565344-pat00054
1
Figure 112021040565344-pat00055
σ(x)이다.
x ∈ [τr, Ln+1+r]에 대해서, P°Fn,r(x)
Figure 112021040565344-pat00056
σ(x)이다. 이것을 종합하면, L=2.45, r=14.5를 갖는 웨이브 polyDEF Fn,r(x)에 대해서 도메인을 적절하게 확장할 수 있다.
도 6은 본 개시의 제2 실시 예에 따라 확장된 다항식의 예를 도시한 도면이다. 구체적으로, 도 6은 확장비가 2.45인 B(x)에 대한 스케일링 베이스 함수와 구성된 polyDEF를 나타낸다.
도 6을 참조하면, [-2.45,2.45] 상의
Figure 112021040565344-pat00057
를 사용하여 1-polyDEF의 구성을 시각화한 도면이다. F3(x)의 구성 지도는 [-2.453, 2.453] 상의 웨이브 1-polyDEF이다. 여기서의 근사 다항식은 후술하는 도 9와 같은 알고리즘 3을 이용하여 생성될 수 있다.
도 7은 본 개시의 제1 실시 예에 따른 다항식 확장 방법을 설명하기 위한 도면이다.
도 7을 참조하면, 알고리즘 1은 [-1.5nr, 1.5nr]에 대한 다항식 도메인 확장 함수의 효율적인 평가를 위한 상세한 과정을 설명한다. 구체적으로, 기본 다항식 즉, 제1 범위 내에서 요구되는 비다항식 연산에 대응되는 제1 다항식을 먼저 선정한다.
그리고 선정된 제1 다항식에 대한 스케일링 기본 함수를 생성한다. 구체적으로, 제1 다항식에 대한 스케일링 기본 함수를 생성한다. 그리고 기본 다항식과 생성된 스케일링 기본 함수를 합성하여 제1 범위보다 확장된 범위를 갖는 근사 다항식을 생성하고, 이와 같은 확장 범위에 대응되는 횟수만큼 상술한 동작을 반복하여 확장된 근사 다항식(즉, 제2 근사 다항식)을 생성할 수 있다. 해당 도면에서는 3회 반복을 수행하여서 최종 생성된 제2 근사 다항식은 3차 함수로, 중간 값이 크게 증가하지 않는다.
또한, 도 7을 다시 참조하면, 최종 생성된 제2 근사 다항식(y=F3(x))은 제1 범위 내에서는 제1 근사 다항식과 매우 근사한 값을 가지며, 제1 범위보다 넓은 제2 범위 값을 가짐을 알 수 있다.
도 8은 본 개시의 제2 실시 예에 따른 시그모이드 함수에 대한 확장 동작을 설명하기 위한 도면이다.
도 8을 참조하면, 먼저, 기본 다항식 즉, 제1 범위 내에서 요구되는 비다항식 연산에 대응되는 제1 다항식을 먼저 선정한다.
그리고 선정된 제1 다항식에 대한 스케일링 기본 함수를 생성한다. 구체적으로, 확장 범위에 대응되는 횟수만큼 제1 다항식에 대한 스케일링 기본 함수를 순차적으로 생성하여 범위가 확장된 근사 다항식을 생성할 수 있다.
도 9는 본 개시의 제3 실시 예에 따른 다항식 확장 방법을 설명하기 위한 도면이다.
알고리즘 3은 로지스틱 함수를 넓은 간격으로 근사화하는 알고리즘을 설명한다. [-14.5, 14.5] 상에 미니맥스 근사치 9를 취할 때, [-14.5, 14.5] 상의 초규격 오차는 0.441이고, 알고리즘 3은 0.045 미만의 초규격 오차를 유지하는 근사 도메인을 적절하게 확장할 수 있다.
한편, 로지스틱 회귀 분석은 이항 분류 문제를 해결하는 머신러닝 방법이다. 로지스틱 회귀 분석이 개인 데이터에 자주 사용되기 때문에 개인 정보를 보존하는 로지스틱 회귀 분석에 대한 수요가 증가하고 있다.
동형 암호를 기반으로 로지스틱 회귀 분석을 실행하려는 시도가 많이 있었지만, 종래에는 로지스틱 함수의 근사 영역을 신중하게 선택하려는 없었다. 종래에는 각 로지스틱 함수의 입력이 암호화되지 않은 상태의 데이터 셋에서 [-8, 8] 에 속하는지 수동으로 확인하였다. 또한, 종래에는 평균 풀링을 이용하여 로지스틱 함수의 각 입력이 [-5, 5]에 속하도록 하였다. 그러나 이러한 종래 접근 방식은 잠재적 누출 또는 데이터 손실을 야기할 수 있다. 또한, 임의로 주어진 데이터 세트, 학습률 및 반복 횟수에 대한 성공적인 결과를 보장할 수 없다. 이는 근사 구간이 너무 좁기 때문이다.
이 문제를 해결하기 위하여, 본 개시에서는 도메인 확장 기능을 이용한다. 앞서 설명한 바와 같이 도메인 확장 기능을 사용하여 광범위한 간격으로 로지스틱 함수를 효율적으로 근사할 수 있다. 로지스틱 회귀 분석의 각 반복에서 로지스틱 함수에 대한 근사 구간을 신중하게 선택하는 것이 좋다. 이를 DEF와 결합하기 위하여, 특정 데이터세트, 학습률 또는 반복 횟수에 편향되지 않는 로지스틱 회귀에 대한 동형 암호 알고리즘을 얻을 수 있었다.
이하에서는 로지스틱이 회귀 분석에서 각 로지스틱 함수의 두 가지 근사 구간에 대해서 설명한다.
먼저, 기준점의 모든 속성이 [0, 1] 예를 들어, 각 기준점의 최고 놈은 1에 의해 제한된다(이는 유일한 가정이다)고 가정한다.
W는 로지스틱 회귀 분석의 가중치와 로지스틱 회귀의 바이어스를 고려한 벡터라고 하자. 학습률 α, 미니 배치 크기를 n, 데이터의 속성 수를 d라고 하면, Wt라운드에서 각각 훈련되는 가중치와 바이어스를 나타낸다. 여기서 x는 데이터 집합에서 샘플링된 기준점이다.
가중치의 반복 관계(수학식 12)에서 다음과 같이 반복할 때 로지스틱 함수의 입력을 대략적으로 제한할 수 있다.
[수학식 13]
Figure 112021040565344-pat00058
Wn·x 는 로지스틱 함수의 입력 절대값이다. 따라서, 상술한 수학식 13은 [-nα(d+1), nα(d+1)] 구간이 n번째 라운드에서 로지스틱 함수의 모든 구간을 포함함을 의미한다.
polyDEF를 사용하여 넓은 간격으로 새로운 다항식 근사치와 결합하면서, 다양한 학습률과 암호화된 상태의 수많은 반복으로 모든 데이터 세트를 훈련시킬 수 있는 로지스틱 회귀에 때한 새로운 동형암호 기반 방법을 설명한다.
그러나 수학식 13에 의해 주어진 간격이 너무 넓기 때문에 도메인 확장 기능을 사용하더라도 너무 많은 동형 연산이 필요하다. 이에 따라, 다음과 같이 더 좁은 간격을 도입할 수 있다.
[수학식 14]
Figure 112021040565344-pat00059
수학식 14은 아래의 수학식 15에 의하여 산출되었다.
[수학식 15]
Figure 112021040565344-pat00060
Figure 112021040565344-pat00061
수학식 14은 로지스틱 회귀 분석의 t번 반복에서 로지스틱 함수의 다항식 근사치에 대한 더욱 합리적인 간격 [-Cα,d,t, Cα,d,t]을 사용할 수 있다. 여기서,
Figure 112021040565344-pat00062
이고, Cα,d,t는 제2 범위의 상단 값, α는 학습률, d는 데이터의 속성 수, t는 로지스틱 회귀분석의 학습횟수이다. 이를 활용하여, 동형 암호 기반 로지스틱 회귀 분석에 적용한 경우를 이하에서 설명한다.
본 개시는 각 로지스틱 함수를 신중하게 선택한 구간에 대한 다항식 근사치로 대체한다. 극단적인 데이터에서도 성공적인 결과를 보장하기 위해 추정 도메인은 잠재적으로 넓을 것이다. 본 개시에 따른 방법을 사용하면 동형암호를 기반으로 넓은 영역의 로지스틱 함수를 효율적으로 근사화할 수 있다.
다음은 넓은 간격에서 로지스틱 함수의 다항식 근사치에 대한 유효한 설정이다. 앞서 설명한 P
Figure 112021040565344-pat00063
와 확장 비율 L 2.45를 사용한다. 좁은 구간에서의 로지스틱 함수의 근사화를 위하여, dfl는 구간 [-14.5, 14.5]에서 차수 90의 최대 다항식을 아래와 같이 취할 수 있다.
[수학식 16]
P(x) = 0.5 + 0.1939x - 4.813e - 3x3 + 5.992e - 5x5 - 3.232e - 7x7 + 6.195e - 10x9
그런 다음 P(x), b(x) 및 L에 의해 생성된 다항식 근사치는 0.045 보다 작은 슈퍼넘 오차를 갖는 넓은 간격의 로지스틱 함수를 근사화할 수 있다.
이를 상술한 수학식 16과 결합하여, 개인 정보 보호 로지스틱 회귀 분석을 위한 HE 기반 방법을 수행할 수 있다. 이와 같은 방법은 특정 데이터 세트, 학습률 또는 반복 횟수에 편향되지 않는다. 이러한 동작에 대해서는 도 11의 알고리즘 4에 구체적으로 도시하였다.
이하에서는 본 개시에 따른 확장 기능의 성능을 자세히 설명한다.
Learning rate Maximum input of the logistic functions Relative error of HE-trained models(%)
0.1 5.4 6.271
0.2 5.6 2.966
0.4 10.2 7.293
0.6 19.0 6.867
0.8 28.7 3.667
1.0 38.4 3.753
1.2 46.6 2.241
1.4 54.0 2.988
1.6 61.3 4.858
1.8 68.8 4.024
2.0 76.6 2.490
표 1은 MNIST 데이터 세트에 대한 암호화된 상태의 로지스틱 회귀 분석의 실험 결과를 나타낸다. 두 번째 열은 전체 공정 동안 로지스틱 함수의 입력의 최대 크기를 나타낸다. 학습 레이트(learning rate)가 증가함에 따라 학습률이 증가하는 경향이 있음을 있다. 세 번째 열은 가중치의 백분율이며, 이것은 두 가중치가 차이가 얼마다 다른지를 나타낸다. 이러한 값은
Figure 112021040565344-pat00064
로 계산될 수 있다. 여기서 Wp는 암호화되지 않은 상태에 대한 훈련 가중치이고, Wc는 암호화된 상태에서의 훈련 가중치이다.
Learning rate Accuracy of encrypted model(%) Acuuracy of unencrypted model(%)
0.1 94.51 94.61
0.2 95.72 95.77
0.4 96.22 96.07
0.6 96.32 96.22
0.8 96.12 96.17
1.0 96.12 96.22
1.2 96.17 96.37
1.4 96.02 96.27
1.6 95.82 96.27
1.8 96.02 96.27
2.0 96.12 96.32
표2는 다양한 학습률에서 MNIST 데이터 세트에 대한 정확도 결과를 나타낸다. 암호화되지 않은 상태에서 훈련된 가중치에 대한 정확도 결과도 같이 나타낸다. 표 2를 참조하면, 암호화된 모델은 학습률이 0.6일 때 96.32% 정확도를 가지며, 암호화되지 않은 모델의 정확도와 유사함을 확인할 수 있다.
Learning rate Maximum input of the logistic functions Relative error of HE-trained models(%)
0.01 3.5 8.941
- Accuracy of encrypted model(%) Acuuracy of unencrypted model(%)
- 81.2 81.3
표 3은 CiFAR-10 데이터 세트에 대한 실험 결과를 나타낸다. MINIST 데이터 세트뿐만 아니라 암호화된 상태에서 훈련된 모델은 암호화되지 않은 상태에서 훈련된 모델과 유사한 정확도를 가짐을 확인할 수 있다.
로지스틱 회귀에 대한 이전 HE 기반 알고리즘은 좁은 도메인에서 로지스틱 함수를 근사화했기 때문에, 학습률이 클 때(예를 들어, 0.4보다 클 때) 기존 학습 모델은 MINST 데이터 세트를 훈련시키지 못한다. 이를 회피하기 위하여 학습률을 낮추면, 수렴 속도를 감소시키고, 성능이 저하된다. MNIST 데이터 세트에서 작은 학습률 0.1, 0.2, 0.41의 저조한 성능이 이를 뒷받침한다. 요약하면, 이전 HE 기반 알고리즘은 제한된 학습률 취할 수 있으며, 이로 인해 성능 저하가 발생할 수 있다. 반면에 본 개시는 어떠한 학습률을 취할 수 있으며, 더 적은 반복으로도 좋은 성과를 얻을 수 있다.
본 개시에서는 머신 러닝을 프라이버시 보증하기 위한 새로운 프레임 워크를 설명한다. 각 비다항식이 다항식 근사치에 대한 도메인을 고정하는 대신 신중하게 선택한 도메인의 다항식으로 각 비다항식을 근사화한다. 따라서, 본 개시에 따른 새로운 프레임 워크는 임의로 주어진 데이터 세트와 주어진 매개 변수에서 수행될 수 있다.
본 개시의 일 실시 예에 따른 도메인 확장 함수는 로지스틱 함수와 같은 시그모이드 함수에 적용될 수 있으며, 좁은 도메인에서 주어진 근사 다항식의 근사 도메인을 효율적으로 확장할 수 있다. 또한, 본 개시에 따른 도메인 확장 함수는 또한 계산 중 중간 값을 상당히 작게 유지하는 장점이 있다.
한편, 상술한 다양한 실시 예에 따른 암호문 처리 방법은 각 단계들을 수행하기 위한 프로그램 코드 형태로 구현되어, 기록 매체에 저장되고 배포될 수도 있다. 이 경우, 기록 매체가 탑재된 장치는 상술한 암호화 또는 암호문 처리 등의 동작들을 수행할 수 있다.
이러한 기록 매체는, ROM, RAM, 메모리 칩, 메모리 카드, 외장형 하드, 하드, CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 다양한 유형의 컴퓨터 판독 가능 매체가 될 수 있다.
이상 첨부 도면을 참고하여 본 개시에 대해서 설명하였지만 본 개시의 권리범위는 후술하는 특허청구범위에 의해 결정되며 전술한 실시 예 및/또는 도면에 제한되는 것으로 해석되어서는 안 된다. 그리고 특허청구범위에 기재된 개시의, 당업자에게 자명한 개량, 변경 및 수정도 본 개시의 권리범위에 포함된다는 점이 명백하게 이해되어야 한다.
100: 전자 장치 200: 제1 서버 장치
300: 제2 서버 장치 400: 연산 장치
410: 통신 장치 420: 메모리
430: 디스플레이 440: 조작 입력 장치
450: 프로세서

Claims (10)

  1. 동형암호문에 대한 비다항식 연산 명령을 입력받는 단계;
    상기 비다항식 연산에 대응되는 근사 다항식 함수를 산출하는 단계;
    상기 산출된 다항식 함수를 이용하여 상기 동형 암호문에 대한 연산을 수행하는 단계; 및
    상기 연산된 동형 암호문을 출력하는 단계;를 포함하고,
    상기 근사 다항식 함수는,
    제1 범위 내에서 상기 비다항식 연산과 기설정된 정확도를 갖는 제1 근사 다항식 함수를 상기 제1 범위보다 넓은 제2 범위를 갖도록 확장된 제2 근사 다항식 함수인 암호문 연산 방법.
  2. 제1항에 있어서,
    상기 근사 다항식 함수를 산출하는 단계는,
    상기 제1 근사 다항식을 결정하는 단계; 및
    상기 제1 범위 내에서는 상기 제1 범위 내에서의 상기 제1 근사 다항식의 계산 값에 대응되는 값을 갖고, 상기 제1 범위 이외의 상기 제2 범위에서는 상기 제1 범위의 끝단에서의 상기 제1 근사 다항식의 계산 값에 대응되는 값을 갖는 제2 근사 다항식을 산출하는 단계;를 포함하는 암호문 연산 방법.
  3. 제2항에 있어서,
    상기 제2 근사 다항식을 산출하는 단계는,
    상기 제1 범위 및 상기 제2 범위에 기초하여 반복 횟수와 기본 함수를 결정하고, 기본 함수와 기본함수에 대응되는 스케일링 기본 함수를 상기 결정된 반복횟수만큼 반복적으로 합성하여 제2 근사 다항식을 산출하는 암호문 연산 방법.
  4. 제1항에 있어서,
    상기 비다항식 연산은 로지스틱 함수를 포함하는 연산이고,
    상기 로지스틱 함수에 사용되는 상기 제2 범위는 다음의 수학식에 의하여 산출되는 암호문 연산 방법,
    Figure 112021040565344-pat00065

    여기서, Cα,d,t는 제2 범위의 상단 값, α는 학습률, d는 데이터의 속성 수, t는 로지스틱 회귀분석의 학습 횟수이다.
  5. 제1항에 있어서,
    상기 비다항식 연산은 로지스틱 함수, hypertangent 함수, erf 함수, arctangent 함수, 가우시안 함수, ReLU-n 함수 중 적어도 하나의 함수를 이용하는 연산인 암호문 연산 방법.
  6. 연산 장치에 있어서,
    적어도 하나의 인스트럭션(instruction)을 저장하는 메모리; 및
    상기 적어도 하나의 인스트럭션을 실행하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 적어도 하나의 인스트럭션을 실행함으로써,
    동형암호문에 대한 비다항식 연산 명령을 입력받으면, 상기 비다항식 연산에 대응되는 근사 다항식 함수를 산출하고, 상기 산출된 다항식 함수를 이용하여 상기 동형 암호문에 대한 연산을 수행하며,
    상기 근사 다항식 함수는,
    제1 범위 내에서 상기 비다항식 연산과 기설정된 정확도를 갖는 제1 근사 다항식 함수를 상기 제1 범위보다 넓은 제2 범위를 갖도록 확장된 제2 근사 다항식 함수인 연산 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 제1 근사 다항식을 결정하고, 상기 제1 범위 내에서는 상기 제1 범위 내에서의 상기 제1 근사 다항식의 계산 값에 대응되는 값을 갖고, 상기 제1 범위 이외의 상기 제2 범위에서는 상기 제1 범위의 끝단에서의 상기 제1 근사 다항식의 계산 값에 대응되는 값을 갖는 제2 근사 다항식을 산출하는 연산 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 제1 범위 및 상기 제2 범위에 기초하여 반복 횟수와 기본 함수를 결정하고, 기본 함수와 기본함수에 대응되는 스케일링 기본 함수를 상기 결정된 반복횟수만큼 반복적으로 합성하여 제2 근사 다항식을 산출하는 연산 장치.
  9. 제6항에 있어서,
    상기 비다항식 연산은 로지스틱 함수를 포함하는 연산이고,
    상기 로지스틱 함수에 사용되는 상기 제2 범위는 다음의 수학식에 의하여 산출되는 연산 장치.
    Figure 112021040565344-pat00066

    여기서, Cα,d,t는 제2 범위의 상단 값, α는 학습률, d는 데이터의 속성 수, t는 로지스틱 회귀분석의 학습 횟수이다.
  10. 제6항에 있어서,
    상기 비다항식 연산은 로지스틱 함수, hypertangent 함수, erf 함수, arctangent 함수, 가우시안 함수, ReLU-n 함수 중 적어도 하나의 함수를 이용하는 연산인 연산 장치.

KR1020210045002A 2021-04-07 2021-04-07 동형 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법 KR102304992B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020210045002A KR102304992B1 (ko) 2021-04-07 2021-04-07 동형 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법
US17/499,793 US11757618B2 (en) 2021-04-07 2021-10-12 Apparatus for processing non-polynomial operation on homomorphic encrypted messages and methods thereof
CN202111228041.2A CN115208548A (zh) 2021-04-07 2021-10-21 用于处理关于同态加密消息的非多项式运算的设备及其方法
EP21204185.9A EP4072062A1 (en) 2021-04-07 2021-10-22 Apparatus for processing non-polynomial operation on homomorphic encrypted messages and methods thereof
JP2021174196A JP7449911B2 (ja) 2021-04-07 2021-10-25 同型暗号文に対する非多項式演算を行う装置
JP2023176698A JP2023179681A (ja) 2021-04-07 2023-10-12 同型暗号文に対する非多項式演算を行う方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210045002A KR102304992B1 (ko) 2021-04-07 2021-04-07 동형 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102304992B1 true KR102304992B1 (ko) 2021-09-27

Family

ID=77925199

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210045002A KR102304992B1 (ko) 2021-04-07 2021-04-07 동형 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법

Country Status (5)

Country Link
US (1) US11757618B2 (ko)
EP (1) EP4072062A1 (ko)
JP (2) JP7449911B2 (ko)
KR (1) KR102304992B1 (ko)
CN (1) CN115208548A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776359B (zh) * 2023-08-23 2023-11-03 北京电子科技学院 一种基于全同态加密的密文同态比较方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6391900B1 (ja) * 2017-11-27 2018-09-19 三菱電機株式会社 準同型推論装置、準同型推論方法、準同型推論プログラム及び秘匿情報処理システム
KR20200070090A (ko) * 2018-12-07 2020-06-17 주식회사 크립토랩 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법
KR20200087061A (ko) * 2019-01-10 2020-07-20 주식회사 크립토랩 근사 암호화된 암호문에 대한 재부팅 연산을 수행하는 장치 및 방법
WO2021050158A1 (en) * 2019-09-12 2021-03-18 Intuit Inc. System and method for approximating branching operations for use with data encrypted by fully homomorphic encryption (fhe)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735264B2 (en) 2001-08-31 2004-05-11 Rainmaker Technologies, Inc. Compensation for non-linear distortion in a modem receiver
US9946970B2 (en) * 2014-11-07 2018-04-17 Microsoft Technology Licensing, Llc Neural networks for encrypted data
US11562230B2 (en) 2017-03-22 2023-01-24 Visa International Service Association Privacy-preserving machine learning
JP6730741B2 (ja) 2017-12-26 2020-07-29 株式会社アクセル 処理装置、処理方法、処理プログラム、及び暗号処理システム
KR102040120B1 (ko) * 2018-07-27 2019-11-05 주식회사 크립토랩 근사 암호화된 암호문에 대한 연산을 수행하는 장치 및 방법
WO2020145503A1 (en) 2019-01-10 2020-07-16 Crypto Lab Inc. Apparatus for processing approximately encrypted messages and methods thereof
US20210351913A1 (en) * 2020-05-08 2021-11-11 Samsung Electronics Co., Ltd Encryption method and apparatus using homomorphic encryption

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6391900B1 (ja) * 2017-11-27 2018-09-19 三菱電機株式会社 準同型推論装置、準同型推論方法、準同型推論プログラム及び秘匿情報処理システム
KR20200070090A (ko) * 2018-12-07 2020-06-17 주식회사 크립토랩 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법
KR20200087061A (ko) * 2019-01-10 2020-07-20 주식회사 크립토랩 근사 암호화된 암호문에 대한 재부팅 연산을 수행하는 장치 및 방법
WO2021050158A1 (en) * 2019-09-12 2021-03-18 Intuit Inc. System and method for approximating branching operations for use with data encrypted by fully homomorphic encryption (fhe)

Also Published As

Publication number Publication date
JP2023179681A (ja) 2023-12-19
US11757618B2 (en) 2023-09-12
JP7449911B2 (ja) 2024-03-14
EP4072062A1 (en) 2022-10-12
US20220337390A1 (en) 2022-10-20
CN115208548A (zh) 2022-10-18
JP2022160985A (ja) 2022-10-20

Similar Documents

Publication Publication Date Title
KR102040106B1 (ko) 실수 평문에 대한 동형 암호화 방법
KR102297536B1 (ko) 암호문에 대한 비다항식 연산을 수행하는 장치 및 방법
JP2020528232A (ja) 同型暗号化を行う端末装置と、その暗号文を処理するサーバ装置及びその方法
US11509454B2 (en) Apparatus for processing modular multiply operation and methods thereof
KR102167565B1 (ko) 근사 암호화된 암호문에 대한 재부팅 연산을 수행하는 장치 및 방법
KR102393942B1 (ko) 비밀 키에 대한 정족수 설계를 수행하는 장치 및 방법
KR102349855B1 (ko) 공간 복잡도를 고려한 동형 암호화 또는 복호화 방법
JP7170878B2 (ja) 暗号文に対する非多項式演算を行う装置及び方法
KR20210081471A (ko) 프로그램 코드를 저장하는 비일시적 컴퓨터 판독가능 매체, 복호화 장치, 및 암호화 장치와 복호화 장치를 포함하는 통신 시스템
JP2023179681A (ja) 同型暗号文に対する非多項式演算を行う方法
KR102522708B1 (ko) 동형 암호문에 대한 통계 연산 수행하는 장치 및 방법
KR102475273B1 (ko) 동형 암호 시스템에 대한 시뮬레이션 장치 및 방법
KR102599406B1 (ko) 영지식 증명을 위한 암호문 처리 방법 및 장치
KR20220121221A (ko) 동형 암호문의 변환 장치 및 방법
KR102160294B1 (ko) 비밀 키에 대한 정족수 설계를 수행하는 장치 및 방법
KR102382952B1 (ko) 근사 계산에 대한 계산 검증
KR102257779B1 (ko) 다자간 계산을 위한 유사 보간
KR102393941B1 (ko) 근사 암호화된 암호문에 대한 인코딩 또는 디코딩
KR102203238B1 (ko) 모듈러 곱셈 연산을 수행하는 연산 장치 및 방법
KR102498133B1 (ko) 모듈러 곱셈 연산을 수행하는 연산 장치 및 방법
KR20230049052A (ko) 격자전자서명의 비밀 키 생성 방법 및 이를 이용한 장치
KR20240000079A (ko) 동형 암호문을 처리하는 장치 및 방법
KR20240014946A (ko) 동형 암호문을 생성하는 전자 장치 및 그 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant