KR20230064796A

KR20230064796A - 가명 정보의 데이터 결합률 산출 시스템 및 방법

Info

Publication number: KR20230064796A
Application number: KR1020210150285A
Authority: KR
Inventors: 정연돈; 이협진; 김종선
Original assignee: 고려대학교 산학협력단
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2023-05-11
Also published as: KR102664104B1

Abstract

본 발명의 일 실시예는, 제1 단말, 제2 단말 및 서버의 통신 연결을 통한 데이터 결합률 산출 방법을 제공한다. 본 방법은, 상기 서버가, 상기 제1 단말로부터 복수개의 제1 암호 데이터들을 포함하는 제1 암호 데이터 세트를 수신하고, 상기 제2 단말로부터 복수개의 제2 암호 데이터들을 포함하는 제2 암호 데이터 세트를 수신하는 단계, 그리고, 상기 서버가, 상기 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 상기 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 토대로 상기 제1 암호 데이터 세트와 상기 제2 암호 데이터 세트의 유사도를 평가하여 데이터 결합률을 산출하는 단계를 포함한다. 상기 복수개의 제1 암호 데이터 및 상기 복수개의 제2 암호 데이터는 기설정된 단방향 암호화 기법에 따라 변환된 데이터인 것이다.

Description

가명 정보의 데이터 결합률 산출 시스템 및 방법{SYSTEM AND METHOD FOR CALCULATING THE BINDING RATE REGARDING DATA OF PSEUDONYMIZED INFORMATION}

본 발명은 가명 정보의 데이터 결합률 산출 시스템 및 방법에 관한 것으로, 더욱 상세하게는, 단방향 암호화 알고리즘을 이용하여 가명 정보를 암호화하여 변환하고, 차분 프라이버시의 기하 메커니즘을 이용하여 데이터 결합률 계산시 노이즈를 추가함으로써, 개인 정보의 유출과 프라이버시 침해를 방지할 수 있는 가명 정보의 데이터 결합률 산출 시스템 및 방법에 관한 것이다.

가명 정보란, 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보 또는 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보를 가명 처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없는 정보를 의미한다. 최근 데이터 3법 개정안이 통과되면서, 통계작성, 과학적 연구, 공익적 기록보존의 목적이라면 가명 정보를 정보 주체의 동의 없이 이용할 수 있게 되었다. 이에 따라, 서로 다른 기업이 보유하고 있는 가명 정보를 데이터 전문기관을 통해 결합할 수 있으며, 데이터 전문기관은 데이터를 결합하기 전에 의뢰기관에게 결합률을 사전에 확인할 수 있는 서비스를 제공하고 있다.

데이터 결합을 의뢰하는 두 기업이 사전합의를 통해 암호화 알고리즘, 키값 등을 토대로 가명 정보를 암호화한 후 데이터 전문기관에 결합률 분석을 신청하면 데이터 전문기관은 두 의뢰기관으로부터 전달 받은 데이터들을 비교하여 데이터 결합률을 계산한다. 다만, 종래의 데이터 결합률 계산 방법은 개인 정보 유출, 프라이버시 침해와 관련하여 몇가지 문제점을 갖고 있다.

예컨대, 데이터의 가명 처리에 사용되는 암호화 알고리즘과 키값, 솔트값 등이 두 결합 의뢰기관의 사전합의를 통해 결정되므로, 한 기관의 정보가 유출되면 다른 기관이 원본값 역시 알아낼 수 있는 문제가 있다. 또한, 데이터 전문기관이 산출한 결합률을 두 결합 의뢰기관에 그대로 전달할 경우 회원 추론 공격이 가능한 문제가 있다. 즉, 결합률을 전달 받은 두 의뢰기관 중 한 의뢰기관이 자신이 데이터 전문기관에 제공한 데이터에 임의로 특정 개인의 데이터를 추가하거나 삭제하고 다시 결합률을 계산하면 결합률의 차이가 발생한다. 이를 이용하면, 두 의뢰기관 중 한 의뢰기관은 특정한 개인의 데이터를 다른 의뢰기관이 보유하고 있는지 알 수 있게 된다. 따라서, 이러한 개인 정보 유출 및 프라이버시 침해 문제들을 방지할 수 있는 데이터 결합률 산출 방법이 필요한 실정이다.

본 발명은 전술한 문제점을 해결하기 위한 것으로, 단방향 암호화 알고리즘을 이용하여 가명 정보를 암호화하고 차분 프라이버시의 기하 메커니즘을 이용하여 데이터 결합률 계산시 노이즈를 추가함으로써, 개인 정보의 유출과 프라이버시 침해를 방지할 수 있는 가명 정보의 데이터 결합률 산출 시스템 및 방법을 제공하는 것을 일 기술적 과제로 한다.

본 발명이 이루고자 하는 기술적 과제들은 상기한 기술적 과제로 제한되지 않으며, 이하의 설명으로부터 본 발명의 또 다른 기술적 과제들이 도출될 수 있다.

상술한 기술적 과제를 해결하기 위한 기술적 수단으로서, 본 발명의 제1 측면에 따른 실시예는, 제1 단말, 제2 단말 및 서버의 통신 연결을 통한 데이터 결합률 산출 방법을 제공한다. 본 방법은, 상기 서버가, 상기 제1 단말로부터 복수개의 제1 암호 데이터들을 포함하는 제1 암호 데이터 세트를 수신하고, 상기 제2 단말로부터 복수개의 제2 암호 데이터들을 포함하는 제2 암호 데이터 세트를 수신하는 단계, 그리고, 상기 서버가, 상기 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 상기 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 토대로 상기 제1 암호 데이터 세트와 상기 제2 암호 데이터 세트의 유사도를 평가하여 데이터 결합률을 산출하는 단계를 포함한다. 상기 복수개의 제1 암호 데이터 및 상기 복수개의 제2 암호 데이터는 기설정된 단방향 암호화 기법에 따라 변환된 데이터이다.

또한, 본 발명의 제2 측면에 따른 실시예는, 제1 단말 및 제2 단말과의 정보 송수신을 수행하는 통신 모듈, 데이터 결합률 산출 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하는 데이터 결합률 산출 시스템을 제공한다. 상기 프로세서는 상기 데이터 결합률 산출 프로그램을 실행하여, 상기 통신 모듈을 통해 상기 제1 단말로부터 복수개의 제1 암호 데이터들을 포함하는 제1 암호 데이터 세트를 수신하고, 상기 통신 모듈을 통해 상기 제2 단말로부터 복수개의 제2 암호 데이터들을 포함하는 제2 암호 데이터 세트를 수신하고, 상기 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 상기 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 토대로 상기 제1 암호 데이터 세트와 상기 제2 암호 데이터 세트의 유사도를 평가하도록 구성된다. 상기 복수개의 제1 암호 데이터 및 상기 복수개의 제2 암호 데이터는 기설정된 단방향 암호화 기법에 따라 변환된 데이터이다.

본 발명에 따르면, 해시함수 등의 단방향 암호화 알고리즘을 이용하여 가명 정보를 암호화하고 차분 프라이버시의 기하 메커니즘을 이용하여 데이터 결합률 계산시 노이즈를 추가함으로써, 개인 정보의 유출과 프라이버시 침해를 방지할 수 있다.

또한, 본 발명에 따르면, 단방향 암호화 알고리즘을 이용하여 가명 정보를 암호화할 때, 솔트값 추가, 키 스트레칭, 더미 데이터 추가 등의 절차를 추가적으로 진행하여 레인보우 테이블 공격을 방지하고, 원본 정보를 유추할 수 없도록 할 수 있다. 있다.

또한, 본 발명에 따르면, 데이터 결합률을 의뢰하는 두 기관 중 한 기관의 정보가 유출된다 하더라도 나머지 다른 기관이 유출된 정보를 토대로 원본 데이터를 알아낼 수 없도록 할 수 있고, 기존의 데이터 결합률 계산에 따른 회원 추론 공격을 방지할 수 있다.

도 1은 본 발명의 일 실시예에 따른 데이터 결합률 산출 시스템과 이와 통신 연결되는 단말들을 도시한 도면이다.
도 2는 도 1에 도시된 데이터 결합률 산출 시스템의 구성을 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 데이터 암호화 과정을 설명하기 위해 도시한 도면이다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 데이터 결합률 산출 성능을 설명하기 위해 도시한 그래프들이다.
도 6은 본 발명의 다른 실시예에 따른 데이터 결합률 산출 방법의 순서를 도시한 흐름도이다.
도 7은 도 6에 도시된 데이터 결합률 산출 방법의 일부 단계에 대한 세부 단계를 설명한 도면이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 상세히 설명하기로 한다. 다만, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시예들로 한정되는 것은 아니다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않는다. 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미로 해석되어야 한다. 사전에 정의된 용어들은 관련기술문헌과 현재 개시된 내용에 부합하는 의미를 추가적으로 갖는 것으로 해석되어야 하며, 별도로 정의되지 않는 한 매우 이상적이거나 제한적인 의미로 해석되지 않는다.

도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 도면에 나타난 각 구성요소의 크기, 형태, 형상은 다양하게 변형될 수 있다. 명세서 전체에 대하여 동일/유사한 부분에 대해서는 동일/유사한 도면 부호를 붙였다.

이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 “부” 등은 명세서 작성의 용이함만이 고려되어 부여 되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략하였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉 또는 결합)"되어 있다고 할 때, 이는 "직접적으로 연결(접속, 접촉 또는 결합)"되어 있는 경우뿐만 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결 (접속, 접촉 또는 결합)"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함(구비 또는 마련)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 "포함(구비 또는 마련)"할 수 있다는 것을 의미한다.

본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 나타내는 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 구성 요소들의 순서나 관계를 제한하지 않는다. 예를 들어, 본 발명의 제1구성요소는 제2구성요소로 명명될 수 있고, 유사하게 제2구성요소도 제1구성 요소로 명명될 수 있다. 본 명세서에서 사용되는 단수 표현의 형태들은 명백히 반대의 의미를 나타내지 않는 한 복수 표현의 형태들도 포함하는 것으로 해석되어야 한다.

도 1은 본 발명의 일 실시예에 따른 데이터 결합률 산출 시스템(100)과 이와 통신 연결되는 단말들(200, 300)을 도시한 도면이다.

도 1을 참조하면, 데이터 결합률 산출 시스템(100)은 제1 단말(200) 및 제2 단말(300)과의 정보 송수신을 수행할 수 있다. 데이터 결합률 산출 시스템(100)은 데이터 전문 기관이 보유한 시스템이고, 제1 단말(200) 및 제2 단말(300)은 상호간의 데이터 결합을 원하는 두 의뢰기관이 각각 보유한 단말일 수 있다. 데이터 결합률 산출 시스템(100)은 서버 또는 단말과 같은 장치 형태로 형성될 수 있고, SaaS (Software as a Service), PaaS (Platform as a Service) 또는 IaaS (Infrastructure as a Service)와 같은 클라우드 컴퓨팅 서비스 모델에서 동작 할 수 있다. 또한, 데이터 결합률 산출 시스템(100)은 사설(private) 클라우드, 공용(public) 클라우드 또는 하이브리드(hybrid) 클라우드 시스템과 같은 서버 형태로 구축될 수 있다.

단말들(200, 300)은 각각 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 휴대성과 이동성이 보장되는 무선 통신 장치 또는 스마트폰, 태블릿 PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 의미할 수 있다. 또한, 도 1에 도시된 통신망은 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN) 또는 부가가치 통신망(Value Added Network; VAN) 등과 같은 유선 네트워크나 이동 통신망(mobile radio communication network) 또는 위성 통신망 등과 같은 모든 종류의 무선 네트워크로 구현될 수 있다.

데이터 결합률 산출 시스템(100)은 상호간에 데이터 결합을 원하는 의뢰기관들로부터 단말들(200, 300)을 통해 데이터 결합률 산출 요청을 수신할 수 있다. 이와 같이, 의뢰기관들은 각각 자신이 보유한 데이터와 상대측 의뢰기관이 보유한 데이터가 얼마나 유사한지 알아보기 위한 데이터 결합률 산출을 요청할 수 있다. 다만, 의뢰기관이 보유한 데이터의 원본값이 유출되는 것을 방지하고자 의뢰기관은 자신이 보유한 데이터를 변환하여 데이터 전문 기관에 전송할 수 있다. 따라서, 데잉터 결합률 산출 시스템(100)은 데이터 암호화 변환 프로그램을 제1 단말(200) 및 제2 단말(300)에게 전송할 수 있다. 제1 단말(200) 및 제2 단말(300)은 데이터 암호화 변환 프로그램을 이용하여 각 의뢰기관이 보유한 데이터를 암호화한 후 변환된 데이터를 데이터 결합률 산출 시스템(100)에 전송할 수 있다. 이후, 데이터 결합률 산출 시스템(100)은 제1 단말(200) 및 제2 단말(300)로부터 수신한 데이터의 일치 개수를 토대로 데이터 결합률을 산출할 수 있다. 이 때, 데이터 결합률 산출 시스템(100)은 데이터의 일치 개수에 임의의 노이즈값을 추가하여 데이터 결합률을 산출함으로써, 차분 프라이버시에 따른 프라이버시 침해 등을 방지할 수 있다.

도 2는 데이터 결합률 산출 시스템(100)의 구성을 도시한 블록도이다. 도 2를 참조하면, 데이터 결합률 산출 시스템(100)은 통신 모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.

통신 모듈(110)은 단말들(200, 300)과의 정보 송수신을 수행한다. 통신 모듈(110)은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치를 포함할 수 있다.

메모리(120)는 데이터 결합률 산출 프로그램을 저장한다. 데이터 결합률 산출 프로그램의 명칭은 설명의 편의를 위해 설정된 것으로, 명칭 그 자체로 프로그램의 기능을 제한하는 것은 아니다. 메모리(120)는 통신 모듈(110)로 입력되는 정보 및 데이터, 프로세서(130)에 의해 수행되는 기능에 필요한 정보 및 데이터, 프로세서(130)의 실행에 따라 생성된 데이터 중 적어도 어느 하나 이상을 저장할 수 있다. 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력을 필요로 하는 휘발성 저장장치를 통칭하는 것으로 해석되어야 한다. 또한, 메모리(120)는 프로세서(130)가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 메모리(120)는 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치 외에 자기 저장 매체(magnetic storage media) 또는 플래시 저장 매체(flash storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

프로세서(130)는 메모리(120)에 저장된 데이터 결합률 산출 프로그램을 실행하도록 구성된다. 프로세서(130)는 데이터를 제어 및 처리하는 다양한 종류의 장치들을 포함할 수 있다. 프로세서(130)는 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 일 예에서, 프로세서(130)는 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 형태로 구현될 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.

프로세서(130)는 데이터 결합률 산출 프로그램을 실행하여 다음과 같은 기능 및 절차들을 수행하도록 구성된다. 프로세서(130)는 통신 모듈(110)을 통해 제1 단말(200)로부터 복수개의 제1 암호 데이터들을 포함하는 제1 암호 데이터 세트를 수신한다. 프로세서(130)는 통신 모듈(110)을 통해 제2 단말(300)로부터 복수개의 제2 암호 데이터들을 포함하는 제2 암호 데이터 세트를 수신한다. 프로세서(130)는 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 토대로 제1 암호 데이터 세트와 제2 암호 데이터 세트의 유사도를 평가한다. 유사도는 데이터 결합률을 의미할 수 있다. 예컨대, 유사도는 (((제1 암호 데이터들 및 제2 암호 데이터들 중 일치하는 데이터의 개수) / (제1 암호 데이터들의 개수)) x 100%)와 같이 설정될 수 있다.

상술한 복수개의 제1 암호 데이터 및 복수개의 제2 암호 데이터는 기설정된 단방향 암호화 기법에 따라 변환된 데이터일 수 있다. 예컨대, 기설정된 단방향 암화하 기법은 HMAC-SHA256을 사용한 해시함수일 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니며, 원본값으로의 복호화가 불가능한 다양한 기법을 더 포함할 수 있다.

제1 암호 데이터 세트 내 복수개의 제1 암호 데이터의 배열 순서는 무작위로 설정되고, 제2 암호 데이터 세트 내 복수개의 제2 암호 데이터의 배열 순서는 무작위로 설정될 수 있다. 이러한 랜덤 셔플링 과정은 데이터가 단말들(200, 300)로부터 데이터 결합률 산출 시스템(100)으로 전송되기 전에 이루어질 수 있다. 즉, 제1 단말(200) 및 제2 단말(300)은 각각 변환된 암호 데이터의 배열 순서를 무작위로 설정하여 데이터 결합률 산출 시스템(100)에 전송할 수 있다.

또한, 프로세서(130)는 데이터 결합률 산출 프로그램을 실행하여 다음과 같은 기능 및 절차들을 더 수행하도록 구성될 수 있다. 프로세서(130)는 제1 단말(200) 및 제2 단말(300)로부터 데이터 결합률 산출 요청을 수신하고, 제1 단말(200) 및 제2 단말(300)에게 기설정된 암호화 기법을 수행하는 데이터 암호화 변환 프로그램을 제공할 수 있다.

나아가, 프로세서(130)는 데이터 결합률 산출 프로그램을 실행하여, 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 결과값으로 산출하고, 결과값에 노이즈값을 추가하고, 그리고, 노이즈값과 제1 암호 데이터의 개수 및 제2 암호 데이터의 개수를 토대로 제1 암호 데이터 세트 및 제2 암호 데이터 세트의 유사도를 나타내는 데이터 결합률을 산출할 수 있다. 이 때, 노이즈값은 차분 프라이버시 예산을 이용한 기설정된 수식에 의해 도출되는 정수로서 제한된 범위의 크기를 가질 수 있다. 데이터 결합률 계산, 노이즈값 추가 등의 과정은 이하에서 도 3을 참조하여 보다 상세하게 설명하도록 한다.

제1 암호 데이터는, 데이터 결합률 산출 대상인 제1 원본 데이터를 입력으로 하는 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 제1 단말(200)의 데이터 암호화 변환 프로그램 실행에 의해 생성될 수 있다. 제2 암호 데이터는, 데이터 결합률 산출 대상인 제2 원본 데이터를 입력으로 하는 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 제2 단말(300)의 데이터 암호화 변환 프로그램 실행에 의해 생성될 수 있다.

제1 암호 데이터는, 데이터 결합률 산출 대상인 제1 원본 데이터에 제1 솔트값을 추가한 제1 변환 데이터를 입력으로 하는 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 제1 단말(200)의 데이터 암호화 변환 프로그램 실행에 의해 생성될 수 있다. 제2 암호 데이터는, 데이터 결합률 산출 대상인 제2 원본 데이터에 제2 솔트값을 추가한 제2 변환 데이터를 입력으로 하는 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 제2 단말(300)의 데이터 암호화 변환 프로그램 실행에 의해 생성될 수 있다. 이 , 제1 솔트값 및 제2 솔트값은 동일한 값으로 설정될 수 있다. 솔트값 추가의 과정은 이하에서 도 3을 참조하여 보다 상세하게 설명하도록 한다.

제1 암호 데이터 세트는, 데이터 결합률 산출 대상인 제1 원본 데이터를 기설정된 암호화 기법에 따라 변환한 제1 암호 데이터와, 데이터 결합률 산출 비대상인 제1 더미 데이터를 기설정된 암호화 기법에 따라 변환한 제1 암호 더미 데이터를 포함할 수 있다. 제2 암호 데이터 세트는, 데이터 결합률 산출 대상인 제2 원본 데이터를 기설정된 암호화 기법에 따라 변환한 제2 암호 데이터와, 데이터 결합률 산출 비대상인 제2 더미 데이터를 기설정된 암호화 기법에 따라 변환한 제1 암호 더미 데이터를 포함할 수 있다. 이 때, 제1 더미 데이터와 제2 더미 데이터는 상이한 값으로 설정될 수 있다. 최종적으로 데이터 결합률 계산시 분모가 되는 특정 암호 데이터 세트에 포함된 암호 데이터들의 개수에서 해당 암호 데이터 세트에 포함된 더미 데이터의 개수는 제외할 수 있다. 이는 임의로 추가되는 더미 데이터에 의해 데이터 결합률에 오차가 발생하는 것을 방지하고자 함이다. 더미 데이터 추가 과정에 대해서는 이하에서 도 3을 참조하여 보다 상세하게 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 데이터 암호화 과정을 설명하기 위해 도시한 도면이다. 도 3을 참조하면, 데이터 결합률 산출 대상인 원본 데이터는 단말들(200, 300)에 의해 기설정된 데이터 암호화 기법에 의해 변환될 수 있다. 이 때, 원본 데이터에 더미 데이터 추가(31), 솔트값 추가(32) 등의 과정을 거친 후 암호화 알고리즘(33)을 적용할 수 있으며, 키 스트레칭 과정(34)을 통해 암호화 알고리즘을 여러 번 반복한 후, 최종적으로 변환된 데이터에 대해 랜덤 셔플링(35)을 진행할 수 있다. 이와 같은 과정들을 통해 무작위로 배열된 암호 데이터들은 암호 데이터 세트를 이루어 데이터 결합률 산출 시스템(100)으로 전송된다. 데이터 결합률 산출 시스템(100)은 수신한 암호 데이터 세트들 간의 유사성을 토대로 데이터 결합률을 산출하며, 이 때 차분 프라이버시의 기하 메커니즘에 따른 노이즈값을 활용할 수 있다.

앞서 도 1을 참조한 설명을 토대로 위 과정들에 대해 구체적으로 예를 들어 살펴보면, 먼저, 데이터 결합을 원하는 두 의뢰기관이 데이터 전문 기관에 결합률 사전 계산 신청을 하게 되면 데이터 전문기관은 데이터를 가명 처리할 수 있는 프로그램을 두 의뢰기관에 전달한다.

프로그램 내부에서는 HMAC-SHA256에서 사용할 키값을 임의로 일회성으로 생성해서 사용한다. 두 의뢰기관들은 전달받은 프로그램을 통해 자신이 보유한 데이터를 변환한 후 무작위로 섞어서 정렬한 데이터 세트를 데이터 전문기관에 전달한다. 데이터 전문기관은 같은 값을 가지는 레코드의 개수를 찾아 결합률을 계산한다. 레코드는 데이터 세트 내 정렬된 데이터 각각을 의미한다. 이때, 빠른 계산을 위해 다양한 정렬 알고리즘을 사용할 수 있으며, 예컨대, 퀵(quick) 정렬과 바이토닉(bitonic) 정렬을 레코드의 개수에 따라 적절하게 선택하여 사용할 수 있다. 같은 값을 가지는 레코드의 개수에 프라이버시 예산(

)과 아래의 식 (1)을 통해 특정 확률로 결정된 임의의 정수

를 더한 값을 토대로 데이터 결합률을 계산한다. 즉, 데이터 결합률 계산시 차분 프라이버시의 기하 메커니즘을 적용하고 각 의뢰기관에 결합률을 알려준다.

식(1)

데이터 변환시 키값, 솔트값, 키 스트레칭 횟수, 더미 데이터 크기 등을 설정하고 적용할 수 있다. 더미 데이터는 원본 데이터에 존재하지 않는 값이고, 두 결합 의뢰기관이 겹치지 않게 생성하여 결합률에는 영향을 주지 않도록 한다. 솔트값 추가, 키 스트레칭, 더미 데이터 추가 기법들을 다양하게 조합하여 사용할 수도 있다.

솔트값 추가 과정은 원본값 뒤에 임의의 값을 추가하여 해시함수를 적용하면 출력 해시값이 크게 바뀌어 레인보우 테이블 공격을 방지할 수 있게 한다. 키 스트레칭 과정은 단방향 암호화 알고리즘을 여러 번 반복하여 원본값 유추를 어렵게 한다. 더미 데이터 추가 과정은 원본 데이터(진짜 레코드)에 가짜 레코드를 넣어 변환된 데이터가 유출되었을 때 어느 것이 진짜 레코드인지 파악하기 어렵게 한다.

차분 프라이버시(differential privacy)와 관련하여,

가 발생시킬 수 있는 모든 결괏값

에 대하여

을 만족하면

는

-차분 프라이버시를 만족한다. 즉,

는 질의 결과에서 임의의 레코드를 식별할 수 없게 질의 결과를 변조하여 프라이버시를 보장한다.

결합률을 계산하기 위해서는 두 결합 의뢰기관의 데이터에서 일치하는 레코드의 개수를 찾아야 하는데, 이는 반드시 정수이다. 따라서. 본 발명의 실시예에서는, 정수의 노이즈를 더하는 기하 메커니즘을 사용한다. 기하 메커니즘은 아래의 식(2) 및 표 1에 따른 확률로 결정된 임의의 정수

를 질의 결과에 더하여 변조하는 방식을 의미한다.

식(2)

다만, 본 발명의 실시예에서는 데이터 결합률이 음수가 나오거나 100%가 넘어가는 등의 상황을 방지하기 위해 정수 노이즈의 크기를 아래 표 2와 같이 제한하여 사용할 수 있다. 아래 표 1 및 표 2에 제시된 값은 위 식 (2)에서 프라이버시 예산 값을 ln2로 설정하였을 때 산출되는 하나의 예시 값에 불과하며 실시예에 따라 다양한 값으로 설정될 수 있다.

		-2	-1	0	1	2
Prob.

	-2	-1	0	1	2
Prob.

도 4 및 도 5는 본 발명의 일 실시예에 따른 데이터 결합률 산출 성능을 설명하기 위해 도시한 그래프들이다. 구체적으로, 도 4에 도시된 그래프(41)는 일치하는 데이터의 개수에 따른 데이터 변환 시간을 나타내고, 도 5에 도시된 그래프(51)는 프라이버시 예산의 값에 따른 공통 데이터 개수 별 변조된 결합률의 상대 오차를 나타낸다. 도 4에 도시된 그래프(41) 참조하면, 데이터 암호화 기법에 따라 변환되는 암호 데이터들의 개수가 많아진다 하더라도 데이터 변환 시간이 크게 증가하지 않는 것을 확인할 수 있다. 즉, 원본 데이터 유출을 방지하고자 원본 데이터에 본 발명의 일 실시예에 따른 단방향 암호화 기법을 적용하더라도 데이터 결합률을 산출하는데 총 소요되는 시간은 크게 증가하지 없는 것을 확인할 수 있다. 도 5에 도시된 그래프(51)를 참조하면, 데이터 결합률 계산시 본 발명의 일 실시예에 따른 차분 프라이버시 예산에 따른 노이즈값을 추가하더라도 데이터 결합률의 오차가 크게 발생하지 않는 것을 확인할 수 있다.

도 6은 본 발명의 다른 실시예에 따른 데이터 결합률 산출 방법의 순서를 도시한 흐름도이고, 도 7은 도 6에 도시된 데이터 결합률 산출 방법의 일부 단계에 대한 세부 단계를 설명한 도면이다. 이하에서 설명될 데이터 결합률 산출 방법은 앞서 도 1 내지 도 5를 참조하여 설명한 데이터 결합률 산출 시스템(100)에 의해 수행될 수 있다. 따라서, 앞서 도 1 내지 도 5를 참조하여 설명한 본 발명의 실시예에 대한 내용은 이하에서 설명될 실시예에도 동일하게 적용될 수 있으며, 이하에서 상술한 설명과 중복되는 내용은 생략하도록 한다. 이하에서 설명되는 단계들은 반드시 순서대로 수행되어야 하는 것은 아니고, 단계들의 순서는 다양하게 설정될 수 있으며, 단계들은 거의 동시에 수행될 수도 있다.

도 6을 참조하면, 본 실시예에 따른, 데이터 결합률 산출 방법은 제1 단말, 제2 단말 및 서버의 통신 연결을 통한 데이터 결합률 산출 방법으로서, 결합률 산출 대상 데이터 수신 단계(S120) 및 데이터 결합률 산출 단계(S130)를 포함한다. 여기서, 서버, 제1 단말 및 제2 단말은 각각 상술한 데이터 결합률 산출 시스템(도 1의 100), 제1 단말(도 1의 200) 및 제2 단말(도 1의 300)과 실질적으로 동일한 것일 수 있다. 또한, 데이터 결합률 산출 방법은 결합률 산출 대상 데이터 수신 단계(S120) 이전에 데이터 암호화 변환 프로그램 제공 단계(S110)를 더 포함할 수 있다.

데이터 암호화 변환 프로그램 제공 단계(S110)는 서버가 제1 단말 및 제2 단말로부터 데이터 결합률 산출 요청을 수신하고, 서버가 제1 단말 및 제2 단말에게 기설정된 암호화 기법을 수행하는 데이터 암호화 변환 프로그램을 제공하는 단계이다. 결합률 산출 대상 데이터 수신 단계(S120)는 서버가, 제1 단말로부터 복수개의 제1 암호 데이터들을 포함하는 제1 암호 데이터 세트를 수신하고, 제2 단말로부터 복수개의 제2 암호 데이터들을 포함하는 제2 암호 데이터 세트를 수신하는 단계이다. 데이터 결합률 산출 단계(S130)는 서버가, 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 토대로 제1 암호 데이터 세트와 제2 암호 데이터 세트의 유사도를 평가하여 데이터 결합률을 산출하는 단계이다. 여기서, 유사도는 데이터 결합률을 의미한다. 복수개의 제1 암호 데이터 및 복수개의 제2 암호 데이터는 기설정된 단방향 암호화 기법에 따라 변환된 데이터이다. 제1 암호 데이터 세트 내 복수개의 제1 암호 데이터의 배열 순서는 무작위로 설정되고, 제2 암호 데이터 세트 내 복수개의 제2 암호 데이터의 배열 순서는 무작위로 설정될 수 있다.

제1 암호 데이터는, 데이터 결합률 산출 대상인 제1 원본 데이터에 대해 기설정된 단방향 암호화 기법에 따른 해시함수를 1회 이상 적용하여 획득한 것으로서, 제1 단말의 데이터 암호화 변환 프로그램 실행에 의해 생성될 수 있다. 제2 암호 데이터는, 데이터 결합률 산출 대상인 제2 원본 데이터에 대해 기설정된 단방향 암호화 기법에 따른 해시함수를 1회 이상 적용하여 획득한 것으로서, 제2 단말의 데이터 암호화 변환 프로그램 실행에 의해 생성될 수 있다.

제1 암호 데이터는, 데이터 결합률 산출 대상인 제1 원본 데이터에 제1 솔트값을 추가한 제1 변환 데이터를 입력으로 하는 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 제1 단말의 데이터 암호화 변환 프로그램 실행에 의해 생성될 수 있다. 제2 암호 데이터는, 데이터 결합률 산출 대상인 제2 원본 데이터에 제2 솔트값을 추가한 제2 변환 데이터를 입력으로 하는 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 제2 단말의 데이터 암호화 변환 프로그램 실행에 의해 생성될 수 있다. 이 때, 제1 솔트값 및 제2 솔트값은 동일한 값으로 설정될 수 있다.

제1 암호 데이터 세트는, 데이터 결합률 산출 대상인 제1 원본 데이터를 기설정된 암호화 기법에 따라 변환한 제1 암호 데이터와, 데이터 결합률 산출 비대상인 제1 더미 데이터를 기설정된 암호화 기법에 따라 변환한 제1 암호 더미 데이터를 포함할 수 있다. 제2 암호 데이터 세트는, 데이터 결합률 산출 대상인 제2 원본 데이터를 기설정된 암호화 기법에 따라 변환한 제2 암호 데이터와, 데이터 결합률 산출 비대상인 제2 더미 데이터를 기설정된 암호화 기법에 따라 변환한 제1 암호 더미 데이터를 포함할 수 있다. 이 때, 제1 더미 데이터와 제2 더미 데이터는 상이한 데이터로 설정될 수 있다.

도 7을 참조하면, 데이터 결합률 산출 단계(S130)는 일치 데이터 개수 산출 단계(S131), 노이즈값 추가 단계(S132) 및 결합률 계산 단계(S133)를 포함할 수 있다. 일치 데이터 개수 산출 단계(S131)는, 서버가 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 결과값으로 산출하는 단계를 의미한다. 노이즈값 추가 단계(S132)는 서버가 결과값에 노이즈값을 추가하는 단계를 의미한다. 결합률 계산 단계(S133)는, 서버가 노이즈값과 제1 암호 데이터의 개수 및 제2 암호 데이터의 개수를 토대로 제1 암호 데이터 세트 및 제2 암호 데이터 세트의 유사도를 나타내는 데이터 결합률을 산출하는 단계를 의미한다. 여기서, 노이즈값은 차분 프라이버시 예산을 이용한 기설정된 수식에 의해 도출되는 정수로서 제한된 범위의 크기를 가질 수 있다.

이상 지금까지 설명한 본 발명의 실시예에 따른 데이터 결합률 산출 방법은, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 상술한 설명을 기초로 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야만 한다. 본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다. 본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

Claims

제1 단말, 제2 단말 및 서버의 통신 연결을 통한 데이터 결합률 산출 방법에 있어서,
a) 상기 서버가, 상기 제1 단말로부터 복수개의 제1 암호 데이터들을 포함하는 제1 암호 데이터 세트를 수신하고, 상기 제2 단말로부터 복수개의 제2 암호 데이터들을 포함하는 제2 암호 데이터 세트를 수신하는 단계; 및
b) 상기 서버가, 상기 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 상기 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 토대로 상기 제1 암호 데이터 세트와 상기 제2 암호 데이터 세트의 유사도를 평가하여 데이터 결합률을 산출하는 단계를 포함하고,
상기 복수개의 제1 암호 데이터 및 상기 복수개의 제2 암호 데이터는 기설정된 단방향 암호화 기법에 따라 변환된 데이터인 것인, 데이터 결합률 산출 방법.
제1항에 있어서,
상기 a) 단계 이전에,
상기 서버가, 상기 제1 단말 및 상기 제2 단말로부터 데이터 결합률 산출 요청을 수신하는 단계; 및
상기 서버가, 상기 제1 단말 및 상기 제2 단말에게 상기 기설정된 암호화 기법을 수행하는 데이터 암호화 변환 프로그램을 제공하는 단계를 더 포함하는 것인, 데이터 결합률 산출 방법.
제2항에 있어서,
상기 제1 암호 데이터는, 데이터 결합률 산출 대상인 제1 원본 데이터에 대해 상기 기설정된 단방향 암호화 기법에 따른 해시함수를 1회 이상 적용하여 획득한 것으로서, 상기 제1 단말의 상기 데이터 암호화 변환 프로그램 실행에 의해 생성되고, 그리고,
상기 제2 암호 데이터는, 데이터 결합률 산출 대상인 제2 원본 데이터에 대해 상기 기설정된 단방향 암호화 기법에 따른 해시함수를 1 회 이상 적용하여 획득한 것으로서, 상기 제2 단말의 상기 데이터 암호화 변환 프로그램 실행에 의해 생성되는 것인, 데이터 결합률 산출 방법.
제2항에 있어서,
상기 제1 암호 데이터는, 데이터 결합률 산출 대상인 제1 원본 데이터에 제1 솔트값을 추가한 제1 변환 데이터를 입력으로 하는 상기 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 상기 제1 단말의 상기 데이터 암호화 변환 프로그램 실행에 의해 생성되고,
상기 제2 암호 데이터는, 데이터 결합률 산출 대상인 제2 원본 데이터에 제2 솔트값을 추가한 제2 변환 데이터를 입력으로 하는 상기 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 상기 제2 단말의 상기 데이터 암호화 변환 프로그램 실행에 의해 생성되고, 그리고,
상기 제1 솔트값 및 상기 제2 솔트값은 동일한 것인, 데이터 결합률 산출 방법.
제1항에 있어서,
상기 제1 암호 데이터 세트는, 데이터 결합률 산출 대상인 제1 원본 데이터를 상기 기설정된 암호화 기법에 따라 변환한 상기 제1 암호 데이터와, 데이터 결합률 산출 비대상인 제1 더미 데이터를 상기 기설정된 암호화 기법에 따라 변환한 제1 암호 더미 데이터를 포함하고,
상기 제2 암호 데이터 세트는, 데이터 결합률 산출 대상인 제2 원본 데이터를 상기 기설정된 암호화 기법에 따라 변환한 상기 제2 암호 데이터와, 데이터 결합률 산출 비대상인 제2 더미 데이터를 상기 기설정된 암호화 기법에 따라 변환한 제1 암호 더미 데이터를 포함하고, 그리고,
상기 제1 더미 데이터와 상기 제2 더미 데이터는 상이한 것인, 데이터 결합률 산출 방법.
제1항에 있어서,
상기 제1 암호 데이터 세트 내 상기 복수개의 제1 암호 데이터의 배열 순서는 무작위로 설정되고, 그리고,
상기 제2 암호 데이터 세트 내 상기 복수개의 제2 암호 데이터의 배열 순서는 무작위로 설정되는 것인, 데이터 결합률 산출 방법.
제1항에 있어서,
상기 b) 단계는,
b-1) 상기 서버가, 상기 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 상기 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 결과값으로 산출하는 단계;
b-2) 상기 서버가, 상기 결과값에 노이즈값을 추가하는 단계; 및
b-3) 상기 서버가, 상기 노이즈값과 상기 제1 암호 데이터의 개수 및 상기 제2 암호 데이터의 개수를 토대로 상기 제1 암호 데이터 세트 및 상기 제2 암호 데이터 세트의 유사도를 나타내는 데이터 결합률을 산출하는 단계를 포함하는 것인, 데이터 결합률 산출 방법.
제7항에 있어서,
상기 노이즈값은 차분 프라이버시 예산을 이용한 기설정된 수식에 의해 도출되는 정수로서 제한된 범위의 크기를 갖는 것인, 데이터 결합률 산출 방법.
제1 단말 및 제2 단말과의 정보 송수신을 수행하는 통신 모듈;
데이터 결합률 산출 프로그램이 저장된 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하고,
상기 프로세서는 상기 데이터 결합률 산출 프로그램을 실행하여, 상기 통신 모듈을 통해 상기 제1 단말로부터 복수개의 제1 암호 데이터들을 포함하는 제1 암호 데이터 세트를 수신하고, 상기 통신 모듈을 통해 상기 제2 단말로부터 복수개의 제2 암호 데이터들을 포함하는 제2 암호 데이터 세트를 수신하고, 상기 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 상기 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 토대로 상기 제1 암호 데이터 세트와 상기 제2 암호 데이터 세트의 유사도를 평가하도록 구성되고, 그리고,
상기 복수개의 제1 암호 데이터 및 상기 복수개의 제2 암호 데이터는 기설정된 단방향 암호화 기법에 따라 변환된 데이터인 것인, 데이터 결합률 산출 시스템.
제9항에 있어서,
상기 프로세서는 상기 데이터 결합률 산출 프로그램을 실행하여, 상기 제1 단말 및 상기 제2 단말로부터 데이터 결합률 산출 요청을 수신하고, 상기 제1 단말 및 상기 제2 단말에게 상기 기설정된 암호화 기법을 수행하는 데이터 암호화 변환 프로그램을 제공하는 것을 더 수행하도록 구성되는 것인, 데이터 결합률 산출 시스템.
제10항에 있어서,
상기 제1 암호 데이터는, 데이터 결합률 산출 대상인 제1 원본 데이터에 대해 상기 기설정된 단방향 암호화 기법에 따른 해시함수를 1 회 이상 적용하여 획득한 것으로서, 상기 제1 단말의 상기 데이터 암호화 변환 프로그램 실행에 의해 생성되고, 그리고,
상기 제2 암호 데이터는, 데이터 결합률 산출 대상인 제2 원본 데이터에 대해 상기 기설정된 단방향 암호화 기법에 따른 해시함수를 1회 이상 적용하여 획득한 것으로서, 상기 제2 단말의 상기 데이터 암호화 변환 프로그램 실행에 의해 생성되는 것인, 데이터 결합률 산출 시스템.
제10항에 있어서,
상기 제1 암호 데이터는, 데이터 결합률 산출 대상인 제1 원본 데이터에 제1 솔트값을 추가한 제1 변환 데이터를 입력으로 하는 상기 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 상기 제1 단말의 상기 데이터 암호화 변환 프로그램 실행에 의해 생성되고,
상기 제2 암호 데이터는, 데이터 결합률 산출 대상인 제2 원본 데이터에 제2 솔트값을 추가한 제2 변환 데이터를 입력으로 하는 상기 기설정된 단방향 암호화 기법에 따른 해시함수의 출력으로서, 상기 제2 단말의 상기 데이터 암호화 변환 프로그램 실행에 의해 생성되고, 그리고,
상기 제1 솔트값 및 상기 제2 솔트값은 동일한 것인, 데이터 결합률 산출 시스템.
제9항에 있어서,
상기 제1 암호 데이터 세트는, 데이터 결합률 산출 대상인 제1 원본 데이터를 상기 기설정된 암호화 기법에 따라 변환한 상기 제1 암호 데이터와, 데이터 결합률 산출 비대상인 제1 더미 데이터를 상기 기설정된 암호화 기법에 따라 변환한 제1 암호 더미 데이터를 포함하고,
상기 제2 암호 데이터 세트는, 데이터 결합률 산출 대상인 제2 원본 데이터를 상기 기설정된 암호화 기법에 따라 변환한 상기 제2 암호 데이터와, 데이터 결합률 산출 비대상인 제2 더미 데이터를 상기 기설정된 암호화 기법에 따라 변환한 제1 암호 더미 데이터를 포함하고, 그리고,
상기 제1 더미 데이터와 상기 제2 더미 데이터는 상이한 것인, 데이터 결합률 산출 시스템.
제9항에 있어서,
상기 제1 암호 데이터 세트 내 상기 복수개의 제1 암호 데이터의 배열 순서는 무작위로 설정되고, 그리고,
상기 제2 암호 데이터 세트 내 상기 복수개의 제2 암호 데이터의 배열 순서는 무작위로 설정되는 것인, 데이터 결합률 산출 시스템.
제9항에 있어서,
상기 프로세서는 상기 데이터 결합률 산출 프로그램을 실행하여, 상기 제1 암호 데이터 세트에 포함된 제1 암호 데이터들과 상기 제2 암호 데이터 세트에 포함된 제2 암호 데이터들 중 상호 일치하는 데이터의 개수를 결과값으로 산출하고, 상기 결과값에 노이즈값을 추가하고, 그리고, 상기 노이즈값과 상기 제1 암호 데이터의 개수 및 상기 제2 암호 데이터의 개수를 토대로 상기 제1 암호 데이터 세트 및 상기 제2 암호 데이터 세트의 유사도를 나타내는 데이터 결합률을 산출하는 것을 더 수행하도록 구성되는 것인, 데이터 결합률 산출 시스템.
제15항에 있어서,
상기 노이즈값은 차분 프라이버시 예산을 이용한 기설정된 수식에 의해 도출되는 정수로서 제한된 범위의 크기를 갖는 것인, 데이터 결합률 산출 시스템.
제1항에 따른 데이터 결합률 산출 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 비일시적 컴퓨터 판독가능 기록매체.