KR20100056054A - 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치 - Google Patents
데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치 Download PDFInfo
- Publication number
- KR20100056054A KR20100056054A KR1020080115024A KR20080115024A KR20100056054A KR 20100056054 A KR20100056054 A KR 20100056054A KR 1020080115024 A KR1020080115024 A KR 1020080115024A KR 20080115024 A KR20080115024 A KR 20080115024A KR 20100056054 A KR20100056054 A KR 20100056054A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- rotation
- rotated
- matrix
- subsets
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법을 포함한다. 본 발명의 회전 기반 변환 방법은 주어진 데이터세트를 복수 개의 데이터 서브세트로 분할하고, 분할된 각 데이터 서브세트에 대해 서로 다른 회전 매트릭스를 적용하여 데이터 회전을 수행하며, 회전된 데이터 서브세트들을 다시 접합하여 회전된 데이터세트를 얻는다. 이렇게 얻어진 회전된 데이터세트는 릴리즈되어 데이터 클러스터링에 이용된다. 이와 같은 본 발명의 회전 기반 변환 방법은 특히 AK-ICA 공격을 완화시키는 데 매우 유용하다. 한편, 두 당사자가 본 발명에 관련되는 경우에는, 데이터 서브세트들의 개수와 같은 파라미터가 두 당사자 사이에 합의되어야 한다. 데이터 서브세트들은 동등한 크기로 분할되는 것이 바람직하다. 또한, 서로 다른 회전 매트릭스들을 이용하여 회전된 데이터 서브세트들 사이에서 클러스터링의 유효성을 제공하기 위해, 복수의 서로 다른 회전 매트릭스 사이의 상대적인 회전 편차를 제거하는 회전 통일 작업이 수행될 수 있다.
Description
본 발명은 데이터의 프라이버시를 보호하기 위해 회전에 의해 데이터를 교란하는 회전 기반 변환 방법 및 장치에 관한 것으로서, 특히 선험적 지식 독립 성분 분석(Apriori Knowledge Independent Component Analysis, AK-ICA) 공격을 완화시키는 회전 기반 변환 방법 및 장치에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 유비쿼터스원천기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2005-Y-001-04, 과제명: 차세대 시큐리티 기술 개발].
회전 기반 변환(RBT)은, 개인 데이터 기록의 프라이버시를 보호하기 위해, 데이터 마이닝에 이용되는 데이터를 교란시키는데 효과적인 메커니즘이다. RBT의 장점은 그것이 거리 불변 변환이라는 것에 있다. 즉 원본 수치 데이터의 벡터들 사이의 거리, 내적 및 각도가 RBT에 의한 변환 후에도 그대로 유지된다. 이러한 장점 은, 데이터 포인트들 사이의 거리를 기준으로 한 데이터 클러스터링에서, 데이터 클러스터링을 위해 변환된 데이터를 이용해야 할 때 특히 유용하다.
그러나 RBT가 선험적 지식 독립 성분 분석(AK-ICA) 공격에는 취약할 수 있다는 사실이 최근 밝혀졌다. 독립 성분 분석(ICA)은 기본적으로, 비가우시안 소스 신호들의 상호 통계적 독립을 가정하여 다변수의 신호들을 합(合) 성분들로 분리하기 위한 방법이다. 또한, AK-ICA는 공격자가 알고 있는 개인 데이터의 일부를 활용하여 공격 능력을 향상시킬 수 있다. AK-ICA의 공격 능력은 몇 가지 가정에 의존하고 있지만, 가장 중요한 것은, 공격자에게 주어진 데이터 샘플이 전체 데이터 개체군의 분포에 관한 충분한 정보를 가져야 하고, 데이터가 특정 타입이어야 하며(ICA 작업 조건에 따를 때), 그리고 공격자는 데이터의 통계적 특성(예를 들어 최소값, 최대값 등)에 관한 충분한 정보를 가져야 한다는 것이다.
본 발명의 주요 목적은 프라이버시 보호 데이터 클러스터링에 이용되는 RBT에 대한 선험적 지식 독립 성분 분석(AK-ICA) 공격을 완화(즉 AK-ICA의 영향을 감소)시키는 것이다.
다시 말해 본 발명의 주요 목적은, 회전된 데이터에 대한 AK-ICA의 적용가능성을 둔화시킴으로써 회전 기반 교란에 대한 AK-ICA 공격을 완화시키는 것이다.
상기의 목적을 달성하기 위해 본 발명은, 기존의 RBT의 변형으로서 다중 회전 기반 변환(Multiple RBT, MRBT)이라는 기법을 제공한다. MRBT는 MRBT의 초기화 시에 구축된 복수 개의 서로 다른 회전 각도를 이용하여 얻어진 복수 개의 서로 다른 회전 매트릭스를 활용한다. 그 후 데이터세트를 동등한 크기의 복수 개의 데이터 서브세트로 나누고, 각 데이터 서브세트에 대해 서로 다른 회전 매트릭스를 적용하여 각 데이터 서브세트를 회전시킨다. 이로써 AK-ICA의 공격을 완화시키는 회전된 데이터가 얻어진다.
구체적으로 본 발명은, 제1 컴퓨터 시스템에 의해, 주어진 데이터세트를 복수 개의 데이터 서브세트로 분할하는 단계와, 상기 제1 컴퓨터 시스템에 의해, 복수 개의 회전된 데이터 서브세트를 생성하기 위해, 상기 분할된 복수 개의 데이터 서브세트 각각에 복수 개의 회전 매트릭스를 각각 적용하여 상기 복수 개의 데이터 서브세트를 회전시키는 단계와, 상기 제1 컴퓨터 시스템에 의해, 회전된 데이터세트를 생성하기 위해, 상기 생성된 복수 개의 회전된 데이터 서브세트를 접합하는 단계와, 상기 회전된 데이터세트가 데이터 마이닝에 이용되도록, 상기 제1 컴퓨터 시스템에 의해 상기 회전된 데이터세트를 릴리즈하는 단계를 포함하는, 회전 기반 변환 방법을 제공한다.
또한, 본 발명은, 일방향 순열을 이용하여 복수 개의 서로 다른 랜덤 값으로부터 대응하는 복수 개의 서로 다른 회전 각도를 생성하고, 그 생성된 복수 개의 서로 다른 회전 각도로부터 오소노멀한 복수 개의 회전 매트릭스를 생성하는 회전 매트릭스 생성부와, 주어진 데이터 세트를 복수 개의 동등한 크기의 데이터 서브세트로 분할하는 데이터 분할부와, 상기 복수 개의 데이터 서브세트 각각을, 대응하는 상기 각각의 회전 매트릭스를 이용하여 회전변환시키는 회전 변환부와, 회전된 데이터 세트를 생성하기 위해 상기 회전된 복수 개의 데이터 서브세트를 접합하는 접합부와, 상기 회전된 데이터 세트가 데이터 마이닝에 이용되도록, 상기 생성된 회전된 데이터 세트를 릴리즈하는 데이터 릴리즈부를 포함하는 회전 기반 변환 장치를 제공한다.
한편, 본 발명은, 상기 회전 기반 변환 방법에 따라 릴리즈된 회전된 데이터 세트에 임의의 클러스터링 알고리즘을 적용하여 데이터 클러스터링을 수행하는 데이터 마이닝 방법 및 장치를 제공한다.
이때, 상기 데이터 마이닝 방법 및 장치는, 상기 클러스터링의 수행 전에, 상기 복수 개의 회전 매트릭스 사이의 상대적인 회전 편차를 제거할 수 있다.
본 발명에 따르면, 실험에 의해서도 밝혀진 바와 같이, 프라이버시 보호 데이터 클러스터링에 이용되는 RBT에 대한 선험적 지식 독립 성분 분석(AK-ICA) 공격을 완화(즉 AK-ICA의 영향을 감소)시킬 수 있다. 즉 본 발명에 따르면, 기존의 RBT에 비해 AK-ICA 공격을 현저히 완화시킬 수 있다.
또한, 본 발명에 따르면, 기존의 RBT에 비해 처리부하의 증가는 없으면서 AK-ICA 공격을 현저히 완화시킬 수 있다.
또한, 본 발명에 따르면, MRBT는 동일한 데이터 서브세트 내에서는 RBT에서처럼 거리 불변 특성을 유지하기 때문에, RTB에 적용될 수 있는 거리 기반 클러스터링 애플리케이션도 MRBT의 데이터 서브세트에 적용할 수 있다. 나아가, MRBT의 회전 통일 프로세스를 이용하면 종래의 RBT와 동일한 클러스터링 품질을 얻을 수 있다.
본발명의 회전 기반 변환 방법 및 장치에 관한 실시예를 이하에서 설명한다.
1. 회전 기반 변환 방법
본 발명의 실시예에 따른 회전 기반 변환 방법은 MRBT로서, 기본적으로 3개의 국면, 즉 초기화 국면, 데이터 회전 국면 및 (필요에 따라) 데이터 릴리즈 국면 으로 구성된다.
도 1에 도시된 바와 같이, A와 B라는 데이터세트를 각각 소유한 앨리스(Alice)와 밥(Bob) 두 당사자와, 마이닝 서버로서 동작하는 제3자 마이클(Michael)이 있다고 가정한다. 데이터세트 A 및 B는 숫자 데이터로 구성되어 있으며 동일한 길이와 폭(즉 동일한 속성 및 레코드 수)을 갖는다. 각 데이터 세트의 속성 및 레코드의 수는 각각 d와 N이다(d 및 N은 각각 자연수). 따라서 각 데이터 세트는 데이터 테이블로서 d×N 차원의 매트릭스 형태로 표현될 수 있다. 앨리스, 밥 그리고 마이클은 각각의 컴퓨터 시스템에 의해 네트워크로 연결되어 있고, 그 네트워크를 통해 정보를 주고받는다.
도 2에는 본 실시예의 회전 기반 변환 방법에 따른 흐름도가 도시되어 있다.
(1) 초기화 국면
이 국면에서는, 복수 개의 회전 매트릭스를 구축하기 위한 시드(seeds)로 이용하기 위해, 두 당사자(앨리스와 밥)가 서로 다른 복수 개의 랜덤 값들을 교환한다. 또한, 두 당사자는 파라미터에 합의한다. 초기화 절차는 다음과 같다.
단계 S1: 두 당사자 앨리스와 밥은, N/n이 정수인(즉 n은 N의 제수인) 공통 파라미터 n에 합의한다(n은 자연수). n의 결정은 AK-ICA 공격에 대한 요구되는 대처 수준에 따라 다르게 결정된다. 즉, 후술하는 바와 같이 n이 커질수록 AK-ICA 공격에 효과적이지만, AK-ICA 공격을 어느 정도까지 차단할 것인지에 따라 n이 다르 게 결정될 수 있다.
단계 S2: 앨리스는 n개의 서로 다른 랜덤 값들 r1, r2,..., rn을 생성하고 그것들을 밥에게 전송한다. 보안을 위해 두 당사자는 기본적인 안전 통신 방법(즉 사전-공유된 비밀 키)을 가질 수 있다. 이 단계는 공지의 랜덤 넌스 교환의 일반화에 해당한다.
단계 S3: 교환된 랜덤 값들로부터, 두 당사자는 일방향 순열(one-way permutation)을 이용하여, r1, r2,..., rn으로부터 서로 다른 회전 각도 θ1, θ2,..., θn을 생성한다. θ1~θn의 값은 완전히 랜덤하게 생성될 수도 있고 좀 더 완벽한 교란을 위해 기존의 RBT에서와 같은 공지의 방법에 의해 결정된 특정 범위의 값으로 제한될 수도 있다.
단계 S4: 양 당사자는 시드로서 전송된 랜덤 값들 r1, r2,..., rn을 이용하여 R1, R2,..., Rn의 오소노멀한(orthonormal) 회전 매트릭스들을 구한다(이때 Ri=f(θi)). 회전 매트릭스 Ri의 예는 다음과 같다.
[식 1]
위에서 구축된 각 회전 매트릭스 Ri는 아래의 단계 S5에서 구축된 데이터 서브세트의 대응 부분에 의한 곱셈을 지원한다. 즉, 회전 매트릭스 Ri는 d×d의 차원을 갖는다.
단계 S5: 앨리스는 자신의 데이터세트 A를 동등한 크기의 n개의 데이터 서브세트로 나눈다. 이때 A={A1, A2,..., An}이고, A1∪A2∪...∪An=A이다. 또한, 밥은 자신의 데이터세트 B를 n개의 데이터 서브세트로 나눈다. 이때 B={B1, B2,..., Bn}이고, B1∪B2∪...∪Bn=B이다. 연산자 ∪는, 테이블로 표현된 데이터 서브세트들을 수직으로 접합시키는(concatenating) 것에 의한 테이블 병합으로서 정의된다(여기서 n은 단계 S1에서 합의된 파라미터이다). 이 단계는 다음과 같은 매트릭스 표현의 수단으로 간단히 표현할 수 있다.
[식 2]
단계 S5에서는 각각의 데이터세트를 동등한 크기로 나누었지만 서로 다른 크기로 나누어도 된다. 다만, 데이터세트를 서로 다른 크기로 나눌 경우에는, 양 당사자 사이에 미리 그 서로 다른 크기에 대해 합의되어야 한다. 또한, 데이터세트가 서로 다른 크기로 나뉘어질 경우, 그 서로 다른 크기를 알고 있는 공격자는 가장 큰 크기의 데이터 서브세트를 먼저 공격함으로써 공격오차를 줄일 수 있기 때문에 보안상으로도 위험할 수 있다. 그러나 데이터세트를 동등한 크기로 나누면, 하나의 데이터 서브세트가 다른 데이터 서브세트에 대해 공격오차의 우위를 가질 수 없기 때문에, 즉 데이터 서브세트들 사이에 동일한 공격오차를 가지기 때문에, 보안상으로 유리하다.
(2) 데이터 회전 국면
이 국면에서는, 앨리스와 밥 두 당사자가 상기 초기화 국면에서 얻어진 정보를 이용하여 각각의 데이터 세트를 회전한다. 절차는 다음과 같다.
단계 S6: 앨리스는 단계 S5에서 생성된 각각의 데이터 서브세트에 대해 단계 S4에서 구축된 대응 회전 매트릭스를 이용하여 회전을 수행한다. 즉 앨리스는 Y1 A=R1A1,Y2 A=R2A2 ,..., Yn A=RnAn을 구하고, 밥은 Y1 B=R1B1,Y2 B=R2B2 ,..., Yn B=RnBn을 구한다.
단계 S7: 앨리스는 단계 S6에서 구해진 회전된 데이터 서브세트들을 재접합(re-concatenate)하여 YA=Y1 A∪Y2 A∪...∪Yn A를 얻고, 밥은 단계 S6에서 구해진 회전된 데이터 서브세트들을 재접합하여 YB=Y1 B∪Y2 B∪...∪Yn B를 얻는다. 도 3에 도시된 바와 같이, 연산자 ∪는 앞서 언급한 것과 같은 테이블 병합으로서 정의된다. 도 3은 데이터 서브세트들의 재접합에 의해 전체 회전된 데이터세트가 구축되는 과정을 도시하고 있다. 단계 S5에서와 유사하게, 이 프로세스는 다음과 같은 매트릭스 표현으로 나타낼 수 있다.
[식 3]
(3) 데이터 릴리즈 국면
이 국면에서는, 두 당사자 앨리스와 밥이 그들의 데이터 세트를 공중의 데이터 마이너(miner)에게 릴리즈하여, 마이닝 목적으로 그 데이터를 이용할 수 있게 한다. 이 국면은 다음과 같이 간단히 수행된다.
단계 S8: 앨리스와 밥은 상기의 절차에 따라 얻어진 회전된 데이터를 제3자인 마이클에게 릴리즈하여 데이터 클러스터링을 위해 그 데이터를 이용하도록 한다.
2. 데이터 마이닝 방법
도 4에는 본 발명의 실시예에 따른 데이터 마이닝 방법의 흐름도가 도시되어 있다. 본 실시예의 데이터 마이닝 방법은, 앞서 언급된 국면들에 더해, 다음의 2개의 추가 국면을 데이터 마이닝 시에 수행한다. 이 2개의 국면은 데이터 마이닝 국면과 추가 데이터 릴리즈 국면(회전 통일 국면)이다.
(1) 데이터 마이닝 국면
RBT와 MRBT는 동일한 회전 매트릭스를 이용하여 회전된 데이터 백터들 사이의 거리를 보존하기 때문에, MRBT를 이용하여 회전된 데이터에서 클러스터들을 추출하는데 기존의 어떠한 클러스터링 알고리즘도 사용할 수 있다. 따라서 마이닝 알고리즘은 다음의 단계를 따를 수 있다.
단계 S9: k-최근접이웃(k-nearest neighbor, kNN)과 같은 기존의 임의의 클러스터링 알고리즘을 선택한다.
단계 S10: 데이터 클러스터들을 추출하기 위해, 선택된 알고리즘을 회전된 데이터세트에 적용한다.
(2) 추가 데이터 릴리즈 국면
MRBT는 동일한 데이터 소유자에 대한 데이터 서브세트들 사이에서 유효성(validity)을 갖는 클러스터링을 지원하지 않는다. 즉 클러스터링 결과는 동일한 회전 매트릭스를 이용하여 회전된 동일한 데이터 세트들 내에서만 유효하다. 서로 다른 회전 매트릭스들을 이용하여 회전된 데이터 서브세트들 사이에서 클러스터링의 유효성을 제공하기 위해, 회전 통일 국면이 수행된다. 다음의 단계들이 2개의 데이터 서브세트 Ai 및 Aj에 대해 수행되고 그 데이터 포인트들 사이에서 유효한 클러스터링을 제공하기 위해 Yi A 및 Yj A로 회전된다. 따라서 하기의 단계 S11 내지 S13은 상기의 단계 S9 및 S10에 선행된다.
이와 같이 이 국면은, 복수의 서로 다른 회전 매트릭스 사이의 상대적인 회전 편차를 제거하는 국면이라고 할 수 있다.
단계 S11. 데이터 소유자는 θi 및 θj의 값에 따라 θ*을 다음과 같이 생성한다.
[식 4] θ*=θi-θj (θi>θj일때) 또는, θ*=360-(θj-θi) (θi<θj일때)
단계 S12: 데이터 소유자는 앞서 생성된 θ*(즉, R*)가 시드가 되는 회전 매트릭스를 생성하고 그것을 데이터 마이너에게 릴리즈한다.
단계 S13. 데이터 마이너는 릴리즈된 매트릭스 R*를 이용하여 데이터 서브세트 Yj A를 회전함으로써 그것을 데이터 Yi A와 통일되게 한다(본 명세서에서 수행되는 모든 회전은 반시계 방향임에 유의).
3.회전 기반 변환 장치
도 5에는 본 실시예의 회전 기반 변환 장치(100)의 기능 블록도가 도시되어 있다. 본 실시예의 회전 기반 변환 장치는 예를 들어 일반적인 컴퓨터 시스템으로서, 복수의 회전 매트릭스를 생성하는 회전 매트릭스 생성부(11)와, 주어진 데이터 세트를 복수개의 데이터 서브세트로 분할하는 데이터 분할부(12)와, 상기 복수개의 데이터 서브세트 각각에 상기 복수의 회전 매트릭스 각각을 적용하여 회전 변환을 수행하는 회전 변환부(13)와, 상기 회전 변환부에 의해 각각 회전 변환된 복수개의 데이터 서브세트를 접합하는 접합부(14)를 포함한다.
회전 매트릭스 생성부(11)는 도 2의 단계 S1 내지 S4를 실행하여 복수의 회전 매트릭스를 생성한다. 데이터 분할부(12) 및 회전 변환부(13)는 도 2의 단계 S5 및 S6을 각각 실행하여 각 데이터 서브세트에 대한 회전된 데이터를 생성한다. 접합부(14)는 도 2의 단계 S7을 실행하여 각 회전된 데이터 서브세트를 서로 재접합한다. 이로써 회전된 데이터가 얻어진다.
회전 기반 변환 장치는 상기 접합부에 의해 회전 변환된 데이터 세트를 외부로 릴리즈하는 데이터 릴리즈부(15)를 더 포함할 수 있다. 릴리즈된 데이터는 후술하는 데이터 마이닝 장치에 의해 이용될 수 있다.
한편, 회전 기반 변환 장치(100)는, 복수의 회전 매트릭스 사이의 상대적인 회전 편차를 제거하는 회전 편차 제거부(16)를 더 포함할 수 있다. 회전 편차 제거부(16)는 도 4의 단계 S11 및 S12를 실행하여 회전 편차를 제거한다. 또한, 도 1에서와 같이, 두 당사자가 관련된 경우에, 회전 기반 변환 장치(100)는, 다른 회전 기반 변환 장치의 데이터 세트의 회전 변환에 함께 이용되도록 복수 개의 서로 다른 랜덤 값을 다른 회전 기반 변환 장치로 전송하는 랜덤 값 전송부(17)를 더 포함한다. 랜덤 값 전송부(17)는 도 2의 단계 S1 및 S2를 실행하여 랜덤 값을 전송한다.
4. 데이터 마이닝 장치
도 6에는 본 발명의 실시예에 따른 데이터 마이닝 장치(200)의 기능 블록도가 도시되어 있다. 본 실시예에 따른 데이터 마이닝 장치(200)는 일반적인 컴퓨터 시스템으로서, 데이터 클러스터링부(21)와 데이터 회전부(22)를 포함한다. 데이터 클러스터링부(21)는 도 3에 도시된 단계 S9 및 S10를 실행하여 데이터 마이닝을 수행한다. 데이터 회전부(22)는 도 3에 도시된 단계 S11 내지 S13을 실행하여(S11 및 S12는 상기 회전 기반 변환 장치에 의해 수행됨) 동일한 소유자의 데이터 서브 세트들 사이의 회전을 통일시킨다.
5. 단일 사용자에 대한 실시예의 적용
본 발명의 상기 실시예는 복수의 당사자에 관한 것이었지만, 단일 사용자에 대해서도 상기 실시예를 적용할 수 있다. 다만, 단일 사용자에 대한 실시예에서는, 상기 본 발명의 실시예에서 양 당사자 사이의 파라미터 n에 대한 합의, 데이터 공유 등의 절차가 생략된다. 나머지 절차는 상기 실시예에서와 같다.
즉 앨리스는 파라미터 n을 임의로 선택하고, 자신의 데이터 세트를 n개의 동등한 데이터 서브세트로 나눈다. 이어서 n개의 서로 다른 시드들을 이용하여 θ1, θ2,..., θn을 생성하고 R1, R2,..., Rn의 오소노멀한(orthonormal) 회전 매트릭스들을 구한다(이때 Ri=f(θi)). 이후는 상기 단계 S5 이후와 동일하다.
6. 실험 결과
발명자들은, AK-ICA 공격에 대해 MRBT가 RBT에 비해 우수하다는 점을 확인하기 위해 다음과 같은 실험을 수행하였다. 오차 측정의 기준은, 프로베니우스 노름(Frobenius norm)에서 표현되는 원본 데이터와 재생 데이터(recovered data) 사이의 거리이다. 하기의 [식 5]와 같이, 프로베니우스 오차는 X(원본 데이터)와 X^(AK-ICA 공격에 의해 복원된 데이터의 추정치) 사이의 상대적 오차이다. 이 상대적 오차가 작다는 것은 AK-ICA 공격에 그만큼 취약하다는 것을 말하고, 이 상대적 오차가 크다는 것은 AK-ICA 공격이 그만큼 완화된다는 것을 뜻한다. 왜냐하면, 재구축된 데이터의 추정치란 AK-ICA 공격에 의해 복원된 데이터의 추정치를 말하는데, 그와 같은 추정치와 원본 데이터와의 차이가 크다는 것은 그만큼 AK-ICA의 공격이 유효하지 않았다는 것을 뜻하기 때문이다.
[식 5]
d는 속성의 개수, N은 레코드의 개수이다.
AK-ICA 공격이 수행된 본 실험에 사용된 데이터세트의 통계 속성은 하기의 [표 1]에 나타나 있다. [표 1]은 저축(Sa.), CD(CD's), 자산(Eq.), 주식(St.) 및 채무(Li.) 각각에 대한 평균(mean), 최소값(min), 최대값(max) 및 분산(var)을 보 여주고 있다. 실험에 사용된 데이터세트의 레코드 수(N)는 50,000개이다.
[표 1]
또한, 데이터세트 ∑의 공분산(covariance)은 다음과 같다.
[식 6]
한편, 본 실험에 사용된 데이터세트는 정규분포를 가지며 데이터의 거의 대부분이 집중되어 있기 때문에, 원본 데이터에 대한 소규모의 샘플이라도 전체 개체군의 분포에 관한 상당한 정보를 제공한다. 따라서 전체 데이터 중 10%만 선택하더라도 전체 개체군의 분포에 관한 정보를 충분히 얻을 수 있다.
도 7에는 실험 결과가 그래프로 도시되어 있다. 그래프의 가로축은 공격자에게 노출된 개인 데이터의 비율(%)을 나타내고, 세로축은 전체 데이터에 대한 재구축(복원) 오차(프로베니우스 오차)를 나타낸다. 도시된 바와 같이, 개인 데이터의 노출 비율과 무관하게, 본 발명의 MRBT가 RBT에 대해 우수하다는 것을 알 수 있다. 또한, 데이터 서브세트의 개수(n)이 클수록 AK-ICA 공격의 완화 정도가 크다는 것을 알 수 있다. 즉 n=100인 경우에는 95% 이상의 오차율을 보이고 있다. 이것은 n=100의 경우, AK-ICA 공격에 의해 복원된 데이터가 원본 데이터와 일치할 가능성이 거의 없다는 것을 뜻한다. n=50인 경우에도 RBT에 비해 3배 이상의 오차율 차이를 보이는 것을 알 수 있다.
한편, 데이터의 분포가 비정규적인 경우에는, RBT에 대한 본 발명의 MRBT의 효과가 정규 분포의 데이터인 경우보다 훨씬 현저하다.
또한, 본 발명의 MRBT는 기존의 RBT에 비해 데이터와 회전 매트릭스의 곱셈이 n배이지만, 계산에 대한 오버헤드는 회전 매트릭스의 개수가 아니라 전체 데이터세트의 크기에만 의존하기 때문에, 본 발명의 MRBT는 기존의 RBT에 비해 프라이버시 보호 능력은 크게 향상된 반면, 오버헤드는 동등하다는 장점을 갖는다.
도 1은 본 발명의 실시예에 따른 회전 기반 변환 방법을 설명하기 위한 개념도이다.
도 2는 본 발명의 실시예에 따른 회전 기반 변환 방법의 흐름도이다.
도 3은 본 발명의 실시예에 따라 데이터 서브세트가 재접합되는 것을 묘사한 도면이다.
도 4는 본 발명의 실시예에 따른 데이터 마이닝 방법의 흐름도이다.
도 5는 본 발명의 실시예에 따른 회전 기반 변환 장치의 기능블록도이다.
도 6은 본 발명의 실시예에 따른 데이터 마이닝 장치의 기능블록도이다.
도 7은 본 발명의 실시예에 따른 실험 결과를 나타낸 그래프이다.
Claims (15)
- 제1 컴퓨터 시스템에 의해, 주어진 데이터세트를 복수 개의 데이터 서브세트로 분할하는 단계와,상기 제1 컴퓨터 시스템에 의해, 복수 개의 회전된 데이터 서브세트를 생성하기 위해, 상기 분할된 복수 개의 데이터 서브세트 각각에 복수 개의 회전 매트릭스를 각각 적용하여 상기 복수 개의 데이터 서브세트를 회전시키는 단계와,상기 제1 컴퓨터 시스템에 의해, 회전된 데이터세트를 생성하기 위해, 상기 생성된 복수 개의 회전된 데이터 서브세트를 접합하는 단계와,상기 회전된 데이터세트가 데이터 마이닝에 이용되도록, 상기 제1 컴퓨터 시스템에 의해 상기 회전된 데이터세트를 릴리즈하는 단계를 포함하는, 회전 기반 변환 방법.
- 청구항 1에 있어서,상기 제1 컴퓨터 시스템에 의해, 복수 개의 서로 다른 랜덤 값으로부터 대응하는 복수 개의 서로 다른 회전 각도를 생성하는 단계를 더 포함하고, 상기 복수 개의 회전 매트릭스는 상기 생성된 서로 다른 회전 각도로부터 오소노멀하게 생성되는, 회전 기반 변환 방법.
- 청구항 1에 있어서,상기 분할 단계는, 상기 데이터 세트를 복수 개의 동등한 크기의 데이터 서브세트로 분할하는, 회전 기반 변환 방법.
- 청구항 2에 있어서,상기 복수 개의 서로 다른 회전 각도는 일방향 순열을 이용하여 생성되는, 회전 기반 변환 방법.
- 청구항 2에 있어서,상기 데이터 세트는 d개의 속성과 N개의 레코드로 구성된 데이터 테이블로서 d×N차원의 매트릭스로 표현될 수 있고, 상기 각 회전 매트릭스는 d×d 차원을 가지며, 상기 복수 개의 랜덤 값 및 상기 복수 개의 데이터 서브세트의 개수가 각각 n일 때 상기 각 데이터 서브세트는 d개의 속성과 N/n개의 레코드(N/n은 정수)로 구성된 데이터 테이블로서 d×(N/n)차원의 매트릭스로 표현될 수 있고(d, N 및 n은 각각 자연수),상기 회전 단계는 상기 각 회전 매트릭스에 상기 각 데이터 서브세트의 매트릭스를 곱함으로써 각각이 d×(N/n)차원의 매트릭스로 표현될 수 있는 n개의 회전된 데이터 서브세트를 생성하고, 상기 접합 단계는 상기 n개의 회전된 데이터 서브세트들을 테이블 병합에 의해 접합하여, d개의 속성과 N개의 레코드로 구성된 상기 회전된 데이터 세트를 생성하는, 회전 기반 변환 방법.
- 청구항 1에 있어서,상기 복수 개의 회전 매트릭스 사이의 상대적인 회전 편차를 제거하는 단계를 더 포함하는, 회전 기반 변환 방법.
- 청구항 6에 있어서,데이터 서브세트 Ai와 Aj가 각각의 대응 회전 각도 θi와 θj에 의해 Yi A와 Yj A로 회전되어 릴리즈되었다고 가정할 때, 상기 회전 편차 제거 단계는, 하기의 (식 4)에 의해 θ*를 생성하는 단계와, 상기 θ*를 이용하여 회전 매트릭스 R*를 생성하는 단계와, 상기 회전 매트릭스 R*를 릴리즈하는 단계를 포함하는, 회전 기반 변환 방법.(식 4) θ*=θi-θj (θi>θj일때) 또는, θ*=360-(θj-θi) (θi<θj일때)
- 청구항 1에 있어서, 상기 제1 컴퓨터 시스템과는 다른 제2 컴퓨터 시스템에서의 데이터세트의 회전 변환에 함께 이용되도록, 상기 생성된 복수 개의 서로 다른 랜덤 값을 상기 제2 컴퓨터 시스템에 전송하는 단계를 더 포함하는, 회전 기반 변환 방법.
- 제1 컴퓨터 시스템에 의해, 주어진 데이터세트를 복수 개의 데이터 서브세트 로 분할하는 단계와, 상기 제1 컴퓨터 시스템에 의해, 복수 개의 회전된 데이터 서브세트를 생성하기 위해, 상기 분할된 복수 개의 데이터 서브세트 각각에 복수 개의 회전 매트릭스를 각각 적용하여 상기 복수 개의 데이터 서브세트를 회전시키는 단계와, 상기 제1 컴퓨터 시스템에 의해, 회전된 데이터세트를 생성하기 위해, 상기 생성된 복수 개의 회전된 데이터 서브세트를 접합하는 단계와, 상기 회전된 데이터세트가 데이터 마이닝에 이용되도록, 상기 제1 컴퓨터 시스템에 의해 상기 회전된 데이터세트를 릴리즈하는 단계를 포함하는 회전 기반 변환 방법에 따라 릴리즈된 회전된 데이터 세트에 임의의 클러스터링 알고리즘을 적용하여 데이터 클러스터링을 수행하는, 데이터 마이닝 방법.
- 청구항 10에 있어서,상기 제1 컴퓨터 시스템에 의해 상기 복수 개의 회전 매트릭스 사이의 상대적인 회전 편차가 제거되며, 데이터 서브세트 Ai와 Aj가 각각의 대응 회전 각도 θi와 θj에 의해 Yi A와 Yj A로 회전되어 릴리즈되었다고 가정할 때, 상기 회전 편차의 제거는, 하기의 (식 4)에 의해 θ*를 생성하는 단계와, 상기 θ*를 이용하여 회전 매트릭스 R*를 생성하는 단계와, 상기 회전 매트릭스 R*를 릴리즈하는 단계를 포함하고,상기 데이터 마이닝 방법은, 상기 릴리즈된 회전 매트릭스 R*를 이용하여 상 기 Yj A를 회전시키는 단계를 더 포함하는, 데이터 마이닝 방법.(식 4) θ*=θi-θj (θi>θj일때) 또는, θ*=360-(θj-θi) (θi<θj일때)
- 일방향 순열을 이용하여 복수 개의 서로 다른 랜덤 값으로부터 대응하는 복수 개의 서로 다른 회전 각도를 생성하고, 그 생성된 복수 개의 서로 다른 회전 각도로부터 오소노멀한 복수 개의 회전 매트릭스를 생성하는 회전 매트릭스 생성부와,주어진 데이터 세트를 복수 개의 동등한 크기의 데이터 서브세트로 분할하는 데이터 분할부와,상기 복수 개의 데이터 서브세트 각각을, 대응하는 상기 각각의 회전 매트릭스를 이용하여 회전변환시키는 회전 변환부와,회전된 데이터 세트를 생성하기 위해 상기 회전된 복수 개의 데이터 서브세트를 접합하는 접합부와,상기 회전된 데이터 세트가 데이터 마이닝에 이용되도록, 상기 생성된 회전된 데이터 세트를 릴리즈하는 데이터 릴리즈부를 포함하는, 회전 기반 변환 장치.
- 청구항 11에 있어서,상기 데이터 세트는 d개의 속성과 N개의 레코드로 구성된 데이터 테이블로서 d×N차원의 매트릭스로 표현될 수 있고, 상기 각 회전 매트릭스는 d×d 차원을 가지며, 상기 복수 개의 랜덤 값 및 상기 복수 개의 데이터 서브세트의 개수가 각각 n일 때 상기 각 데이터 서브세트는 d개의 속성과 N/n개의 레코드(N/n은 정수)로 구성된 데이터 테이블로서 d×(N/n)차원의 매트릭스로 표현될 수 있고(d, N 및 n은 각각 자연수),상기 회전 변환부는 상기 각 회전 매트릭스에 상기 각 데이터 서브세트의 매트릭스를 곱함으로써 각각이 d×(N/n)차원의 매트릭스로 표현될 수 있는 n개의 회전 데이터 서브세트를 생성하고, 상기 접합부는 상기 n개의 회전된 데이터 서브세트들을 테이블 병합에 의해 접합하여, d개의 속성과 N개의 레코드로 구성된 상기 회전된 데이터 세트를 생성하는, 회전 기반 변환 장치.
- 청구항 11에 있어서,상기 복수의 회전 매트릭스 사이의 상대적인 회전 편차를 제거하는 회전 편차 제거부를 더 포함하는, 회전 기반 변환 장치.
- 청구항 13에 있어서,데이터 서브세트 Ai와 Aj가 각각의 대응 회전 각도 θi와 θj에 의해 Yi A와 Yj A로 회전되어 릴리즈되었다고 가정할 때, 상기 회전 편차 제거부는, 하기의 (식 4)에 의해 θ*를 생성하고, 상기 θ*를 이용하여 회전 매트릭스 R*를 생성하여 릴리즈 하는, 회전 기반 변환 장치.(식 4) θ*=θi-θj (θi>θj일때) 또는, θ*=360-(θj-θi) (θi<θj일때)
- 청구항 11에 있어서, 다른 회전 기반 변환 장치의 데이터 세트의 회전 변환에 함께 이용되도록 상기 복수 개의 서로 다른 랜덤 값을 상기 다른 회전 기반 변환 장치로 전송하는 랜덤 값 전송부를 더 포함하는, 회전 기반 변환 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080115024A KR101175190B1 (ko) | 2008-11-19 | 2008-11-19 | 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치 |
US12/575,193 US8112386B2 (en) | 2008-11-19 | 2009-10-07 | Rotation based transformation method and apparatus for preserving data privacy |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080115024A KR101175190B1 (ko) | 2008-11-19 | 2008-11-19 | 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100056054A true KR20100056054A (ko) | 2010-05-27 |
KR101175190B1 KR101175190B1 (ko) | 2012-08-20 |
Family
ID=42172802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080115024A KR101175190B1 (ko) | 2008-11-19 | 2008-11-19 | 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8112386B2 (ko) |
KR (1) | KR101175190B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103176976B (zh) * | 2011-12-20 | 2016-01-20 | 中国科学院声学研究所 | 一种基于数据压缩Apriori算法的关联规则挖掘方法 |
KR101721039B1 (ko) | 2015-11-27 | 2017-03-30 | 세종대학교산학협력단 | 트리 구조 기반의 프라이버시 보호를 위한 유용성 높은 패턴 마이닝 방법, 이를 수행하는 장치 및 이를 저장하는 기록매체 |
CN109857780B (zh) * | 2019-01-17 | 2023-04-28 | 西北大学 | 一种针对统计查询攻击的线性-正交数据发布方法 |
CN112818398B (zh) * | 2021-02-06 | 2022-04-01 | 上海欣兆阳信息科技有限公司 | 针对大数据隐私保护的数据处理方法及大数据处理设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6360021B1 (en) * | 1998-07-30 | 2002-03-19 | The Regents Of The University Of California | Apparatus and methods of image and signal processing |
US6931403B1 (en) | 2000-01-19 | 2005-08-16 | International Business Machines Corporation | System and architecture for privacy-preserving data mining |
US6636862B2 (en) * | 2000-07-05 | 2003-10-21 | Camo, Inc. | Method and system for the dynamic analysis of data |
JP4507991B2 (ja) * | 2005-06-09 | 2010-07-21 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
-
2008
- 2008-11-19 KR KR1020080115024A patent/KR101175190B1/ko not_active IP Right Cessation
-
2009
- 2009-10-07 US US12/575,193 patent/US8112386B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20100125608A1 (en) | 2010-05-20 |
US8112386B2 (en) | 2012-02-07 |
KR101175190B1 (ko) | 2012-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sugumaran et al. | An architecture for data security in cloud computing | |
US9910478B2 (en) | Collation system, node, collation method, and computer readable medium | |
CN106411515B (zh) | 利用密码机对密钥进行分割提升密钥安全的方法及系统 | |
US11563566B2 (en) | Key splitting | |
KR101175190B1 (ko) | 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치 | |
CN112000978B (zh) | 隐私数据的输出方法、数据处理系统及存储介质 | |
Azougaghe et al. | An efficient algorithm for data security in cloud storage | |
Abdalwahid et al. | Enhancing approach using hybrid pailler and RSA for information security in bigdata | |
CN116910739A (zh) | 基于区块链的设备数据访问控制方法、系统、设备和介质 | |
Tallapally et al. | Competent multi-level encryption methods for implementing cloud security | |
Olaiya et al. | Encryption techniques for financial data security in fintech applications | |
EP3556046B1 (en) | Method for secure management of secrets in a hierarchical multi-tenant environment | |
CN117574434A (zh) | 一种模型隐私保护方法及系统 | |
CN117349685A (zh) | 一种通信数据的聚类方法、系统、终端及介质 | |
Choubey et al. | Study of data security and privacy preserving solutions in cloud computing | |
Anitha et al. | Secure virtual machine migration in virtualized environment | |
Patra et al. | Securing cloud infrastructure for high performance scientific computations using cryptographic techniques | |
Alavi et al. | Vulnerabilities and improvements on HRAP+, a hash-based RFID authentication protocol | |
Li et al. | Asymmetric Cryptography Based Unidirectional Authentication Method for RFID | |
Yan et al. | Anti-tracking in rfid discovery service for dynamic supply chain systems | |
Tiwari et al. | Role of biometric cryptography in cloud computing | |
Li et al. | Attribute-Based Encryption Method for Data Privacy Security Protection | |
Garg et al. | Dynamic Hybrid Secured Environment (DHSE) to Provide Confidentiality in Cloud Computing Environment | |
Nabil et al. | A Robust Cloud Security Model Leveraging a Hybrid of Cryptography and Steganography | |
Patil et al. | Improved Association Rule Mining-Based Data Sanitization for Privacy Preservation Model in Cloud |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150728 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20161111 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |