TW202046138A - 收集與分析資料的裝置 - Google Patents

收集與分析資料的裝置 Download PDF

Info

Publication number
TW202046138A
TW202046138A TW109123041A TW109123041A TW202046138A TW 202046138 A TW202046138 A TW 202046138A TW 109123041 A TW109123041 A TW 109123041A TW 109123041 A TW109123041 A TW 109123041A TW 202046138 A TW202046138 A TW 202046138A
Authority
TW
Taiwan
Prior art keywords
data
random number
data string
random
response mechanism
Prior art date
Application number
TW109123041A
Other languages
English (en)
Other versions
TWI799722B (zh
Inventor
鄒耀東
振昊
張慶瑞
郭斯彥
Original Assignee
鈺創科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鈺創科技股份有限公司 filed Critical 鈺創科技股份有限公司
Publication of TW202046138A publication Critical patent/TW202046138A/zh
Application granted granted Critical
Publication of TWI799722B publication Critical patent/TWI799722B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/588Random number generators, i.e. based on natural stochastic processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/582Pseudo-random number generators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/06Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
    • H04L9/0643Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0861Generation of secret information including derivation or calculation of cryptographic keys or passwords
    • H04L9/0866Generation of secret information including derivation or calculation of cryptographic keys or passwords involving user or device identifiers, e.g. serial number, physical or biometrical information, DNA, hand-signature or measurable physical characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/42Anonymization, e.g. involving pseudonyms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/80Wireless
    • H04L2209/805Lightweight hardware, e.g. radio-frequency identification [RFID] or sensor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Storage Device Security (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Complex Calculations (AREA)

Abstract

收集與分析資料的裝置包含一真亂數產生器、一處理器單元及一輸出電路。該真亂數產生器不需使用一亂數種子來產生複數個亂數;該處理器單元基於該複數個亂數來對具有一原始特徵的一原始資料串中的識別資訊進行去識別化,並生成具有一第二特徵的一第二資料串;及該輸出電路輸出所述第二資料串至一遠端伺服器。

Description

收集與分析資料的裝置
本發明是有關於一種收集與分析資料的裝置,尤指一種可利用一第一雜訊產生步驟與一第二雜訊產生步驟來對一原始資料串中的識別資訊去識別化的裝置。
在當代社會裡,資料的利用對個人用戶或是機構都相當的重要,然而,兩者對資料獲取途徑的立場並不相同。公司或者學術團體等機構希望收集用戶的資料以獲取有用的資訊,藉以提昇服務的針對性或制定發展戰略。相對的,該個人用戶會將他們的資料分享給感興趣的第三方機構以獲取多種不同的潛在利益,但更希望能確保他們的隱私,例如應用程式的使用紀錄、定位記錄或瀏覽器的歷史記錄不被洩漏。因此,如何最大化該個人用戶的服務使用經驗以及最小化該個人用戶隱私的洩漏是人們需面對的一項困境。
在先前技術中,隨機響應(Randomized Response)機制(詳見於參考文件(17))的使用引起了學術界相當的興趣,且可以用於解決上述的困境。該隨機響應機制的概念,是在將資料分享給任何信任資料經手人之前,於用戶端先對該資料產生雜訊。與需要仰賴可信任的第三方機構或者需要對資料的使用範圍作限制的技術如集中式差分隱私(Centralized Differential Privacy)(詳見於參考文件(6) (7))或加密式的隱私保護(Encryption-Based Privacy-Preserving)(詳見於參考文件(8) (10))相對比,該隨機響應機制可以在用戶端差分隱私(Local Differential Privacy)的定義下與擁有較廣泛的資料的使用範圍下提供嚴密的隱私保證。特別來說,該隨機響應機制可同時滿足該差分隱私的定義且提供嚴密的隱私保證,也就是說,無論隱私攻擊者的背景知識與技術為何,該個人用戶具有“合理的否認(plausible deniability)”以使該個人用戶中具有高度機密的敏感資訊不受該隱私攻擊者侵犯,也就是說該隨機響應機制可對該個人用戶與該具有高度機密的敏感資訊之間的連結去識別化,導致該隱私攻擊者無法侵犯該具有高度機密的敏感資訊。
該隨機響應機制最初是由Warner在1965年提出以作為收集敏感性問題的調查方法(詳見於參考文件(17))。在超過40年之後,Dowrk et al.提出了穩固且數學性質嚴謹的定義以定義「隱私」,同時提出了該差分隱私的概念(詳見於參考文件(6))。而Kasiviswanathan et al.則提出了用於隱私學習的用戶端模型(詳見於參考文件(16)),並首先將該隨機響應機制與該差分隱私連結在一起。之後,Chan et al.證明了該隨機響應機制的問題複雜度在該用戶端模型下具有一最佳下界(optimal lower bound,詳見於參考文件(18)),稱為用戶端差分隱私。
近年來,因為該用戶端模型中並不需要信任資料經手人(trusted data curator,詳見於參考文件(15)),所以該用戶端模型的應用逐漸受到關注。另外,在實際的應用中,人們想要知道的是所有的物件中出現頻率最高的物件,辨識出現頻率最高的物件的問題被稱為「重擊手問題(heavy-hitters problem)」。因此,Erlingsson et al.提出了隨機可聚合隱私保護序數響應機制(randomized aggregatable privacy-preserving ordinal response,RAPPOR)(詳見於參考文件(21)),其中RAPPOR在執行雙層架構的隨機響應機制後,可利用一布倫過濾器(Bloom filter,詳見於參考文件(21))來表示真實用戶端資料串並輸出一模糊版本的真實用戶端資料串。RAPPOR的一大貢獻在於其具有用於學習統計的敏銳解碼架構,其中,該解碼架構不僅可以説明辨識出該資料中的「重擊手」,也可以用於重建對象的一頻率分佈。
自從RAPPOR提出以來,許多關於隱私學習的研究都是在該用戶端模型下進行。例如Fanti et al.提出了關於RAPPOR的一擴充版本(詳見於參考文件(11)),其中,該擴充版本包含新版的解碼架構,以解決RAPPOR的兩個問題:(1)RAPPOR所聚合的資料只能用於決定一邊際頻率分佈(marginal distribution),並無法決定一聯合頻率分佈(joint distribution);(2)RAPPOR所聚合的該資料只能在參照一精確的資料解碼字典(precise data dictionary)下有效的解碼。然而,該擴充版本為了解決上述RAPPOR兩個問題,犧牲了精確重建資料的能力。在解碼後,RAPPOR所聚合的資料只能觀察到部份具有較高出現頻率的用戶端資料串。
Qin et al.(詳見於參考文件(23))則設計了另一具有雙層架構的用戶端差分隱私挖掘機制(Local Differential Privacy Miner,LDPMiner),LDPMiner利用了一隱私預算值ε(詳見於參考文件(6))以產生可能包含資料中的「重擊手」的一候選集合,以及利用該資料中在該候選集合以外的其餘資料來精准化該候選集合。LDPMiner著重於在集值資料(set-valued data)中,而不是在分類資料(categorical data)中,辨識該資料中的「重擊手」。借此,LDPMiner進一步擴展了RAPPOR的應用方式。
Wang et al.(詳見於參考文件(20))則設計了最佳化的用戶端差分隱私協定(Optimizing Locally Differentially Private Protocols,OLH),用以決定RAPPOR中的最佳化參數。然而,OLH只能用於辨識具有小範圍領域的資料中的「重擊手」。相對的,RAPPOR與本發明所提供的方法並沒有這樣的限制。另外,Sei and Ohsuga(詳見於參考文件(22))提出了一對多隨機虛擬樣本機制(Single to Randomized Multiple Dummies ,S2M)與貝氏定理一對多隨機虛擬樣本機制(Single to Randomized Multiple Dummies with Bayes,S2Mb),以及描述了應用均方誤差值(mean square errors,MSEs)與詹森香農散度(Jensen-Shannon divergence,JS divergence),其中MSEs與JS divergence都可以達到與RAPPOR相似的效用。雖然參考文件(20)與參考文件(22)對RAPPOR的發展具有重要意義,但是本發明所提供的方法和參考文件(20)與參考文件(22)具有不同的評估指標,因此本發明所提供的方法無法與參考文件(20)與參考文件(22)比較。
另外,一些不同於與RAPPOR的先前技術也啟發了本發明。其中,Bassily and Smith(詳見於參考文件(14))提出了產生簡潔直方圖的協定。該簡潔直方圖是只包含該資料中的「重擊手」出現的次數,以及顯示該協定符合頻率估計的下界。另外,Papernot et al.(詳見於參考文件(13))提出了教師全體隱私聚合(Private Aggregation of Teacher Ensembles,PATE),PATE是能夠保護敏感訓練資料的一演算法,其中該敏感訓練資料是從用戶端收集得到,且是用於機器學習的訓練資料。PATE在該敏感訓練資料的不相交的子集之中訓練「教師」模型(例如該敏感訓練資料是從不同的用戶端收集的不同的資料,且該不同的資料為不相交的子集),而一「學生」模型則會集合所有該「教師」模組的資料、加入雜訊、使用加入雜訊的資料進行訓練,以及預測該「學生」模型訓練的結果。
另外值得注意的是,該隨機響應機制的隨機性是來自於偽亂數產生器(Pseudorandom Number Generator,PRNGs)的硬幣投擲控制或者密碼安全偽亂數產生器(Cryptographically Secure Pseudo- Random Number Generators,CSPRNGs)(詳見於參考文件(11) (20) (21))。然而,該隨機響應機制所產生的亂數的品質會對隱私保護的程度產生巨大的影響,且不安全性更可以直接的被看出來。更精確地來說,該偽亂數產生器/密碼安全偽亂數產生器是由軟體和確定性的演算法(例如= dev = urandom,詳見於參考文件(9))產生一序列的亂數來實現的,且只有在選擇了正確的亂數種子的狀況下才能保證加密的安全性。
本發明的一實施例提供一種收集與分析資料的裝置,其中該裝置包含一真亂數產生器(truly random number generators, TRNGs)、一處理器單元及一輸出電路。該真亂數產生器不需使用一亂數種子來產生複數個亂數;該處理器單元基於該複數個亂數來對具有一原始特徵的一原始資料串中的識別資訊進行去識別化,並生成具有一第二特徵的一第二資料串;及該輸出電路輸出所述第二資料串至一遠端伺服器。
在本發明中,該真亂數產生器應被當成本發明的重要基本架構。該真亂數產生器是經由硬體實現,並且可利用具有不確定性的一物理事件,例如一單通量量子元件中的一鐵磁層與通量傳輸的磁化變化,來產生一亂數序列。其中該真亂數產生器的一起始狀態是真正的未知狀態(相對的,一偽亂數產生器或一密碼安全偽亂數產生器的該起始狀態則是被手動保密的,並非真正的未知狀態)。然而,該真亂數產生器主要的缺點是當輸入的一原始資料串的資料量增加時,該真亂數產生器在規模上的可擴展性仍是一大障礙(尤其該真亂數產生器的規模上的可擴展性在物聯網的相關應用上更顯重要)。一種克服該缺點的方法,是採用一磁穿隧結(magnetic tunnel junction,MTJ)來實現一基於自旋電子的真亂數產生器(spintronics-based TRNG),其中該磁穿隧結中的自旋轉移力矩(spin-transfer-torque, STT)在磁化翻轉時的不可預測性可以被用來產生二進位亂數(該二進位亂數可形成該亂數集合)。因為該自旋轉移力矩具有高度的可擴展性,所以該磁穿隧結可以被利用來實現該真亂數產生器,並且可以整合到高密度、低耗能的晶片上。
在本發明中,為了達成該原始資料串的準確分析以及強力保護對應該原始資料串的隱私,直覺的作法是在擾動該原始資料串的同時,透過詳盡的編碼技術和分析機制來確保一亂數產生演算法的隨機性。因此,本發明提供了基於自旋電子的隱私可聚合隨機響應機制(spintronics-based private aggregatable randomized response,SPARR),SPARR是一種收集與分析資料的方法,且是利用該磁穿隧結來實現多層架構的隨機響應機制以符合用戶端差分隱私的需求。
因此,相較於先前技術,本發明的主要貢獻在於:1)本發明是該多層架構的隨機響應機制,其中該多層架構的隨機響應機制能夠提昇資料分析的準確度,以及滿足該用戶端差分隱私的定義;2)本發明利用該磁穿隧結來實現該基於自旋電子的真亂數產生器以產生無法預測的亂數,並將該亂數轉換成為該二進位亂數,其中該基於自旋電子的真亂數產生器可以整合到該多層架構的隨機響應機制,借此強化該亂數產生演算法的隨機性;3)本發明透過一系列的實驗以驗證本發明在模擬環境以及真實環境下都能發揮比先前技術更好的效果。
本發明提供了SPARR,SPARR與上述先前技術的差異主要有兩點:(1) 本發明利用一組磁穿隧結來實現一基於自旋電子的真亂數產生器,因此可以提供嚴密的隱私保護; (2) 本發明是該多層架構的隨機響應機制,可以用於保護資料的隱私以及提昇資料分析上的可利用率。另外,本發明使用一假陰性率(false negative rate)、一總變異量距離(total variation distance)以及一分配質量(allocated mass)等指標來驗證SPARR可以達成比先前技術更優秀的效果。
在本段落會詳細說明與公式化SPARR的定義,其中包含可說明SPARR的一系統模型、一攻擊者模型與所使用的符號。
A. 該系統模型
第1圖所示的該系統模型可用來說明本發明,如第1圖所示,該系統模型是一群眾感知與收集模型,該系統模型包含可無條件信任的用戶102(可生成對應到用戶102的資料串,該資料串中具有對應到用戶102的識別資訊,該識別資訊可以識別用戶102。因為該識別資訊可以識別用戶102,所以該識別資訊也可以被看作是用戶102的隱私)、一可半信任的存儲伺服器104(可收集包含該資料串的大量資料)以及一資料分析者106(可分析該大量資料)。在不失一般性的情況下,用戶102與資料分析者106之間的授權行為可以線上或離線進行。然而,該授權行為的相關技術超出了本發明的範圍,相關技術說明請詳見於參考文件(19)。
如第1圖所示,存儲伺服器104可以從用戶102收集淨化過的資料串。此外,分析者106從存儲伺服器104獲得該淨化過的資料串,並可以對該淨化過的資料串進行統計分析,例如利用直方圖、頻率分析或其他統計方法分析用戶102的應用程式使用偏好、歷史活動或其他資訊。對於任意淨化過的資料串,SPARR可以利用一序列的步驟對該識別資訊進行去識別化(也就是淨化),並可以透過ε-差分隱私的定義來衡量,因此SPARR可提供用戶102強力的“合理的否認”以提供嚴密的保護並使用戶隱私不被洩漏。
B. 該攻擊者模型
在該系統模型下,用戶102中的每一用戶端的隱私資料有多種洩漏方式。假設存儲伺服器104與資料分析者106為半誠實的(honest-but-curious),存儲伺服器104與資料分析者106可能會借由發表包含資料串的分析結果而無意中洩漏了用戶102的隱私,或者在收集該每一用戶端的敏感性資料時故意地侵犯了用戶102的隱私。另外,多種直接的攻擊方式也可能發生,例如該攻擊者可以直接偷取存儲伺服器104儲存的包含該資料串的大量資料、或者可以竊聽用戶102與存儲伺服器104之間的溝通。為了防止上述多種洩漏方式,本發明採用了一用戶端隱私保存機制,該用戶端隱私保存機制可以在每一用戶端實現,且可以在該資料串被傳送前淨化該資料串。另外,該用戶端隱私保存機制也符合該ε-差分隱私的定義,因此可在無論隱私攻擊者的背景知識與技術為何的前提下提供嚴密的隱私保證。
C. 使用的符號
請參照第2圖,第2圖是說明雜湊編碼(hash functions)、永久隨機響應機制(permanent randomized response,PRR)、瞬時隨機響應機制(instantaneous randomized response,IRR)與合成隨機響應機制(synthetic randomized response,SRR)的示意圖。其中關於第2圖的詳細說明如下。
在本發明中,N 代表被回報的數量; m代表同僚群組(cohorts)的數量; h 代表雜湊編碼的數量,其中一前置處理器可用於接收一輸入資料串(例如該每一用戶端的隱私資料)並對該輸入資料串進行雜湊編碼以生成具有原始特徵(例如,第2圖中該原始資料串裡具有「1」值的位元)的一原始資料串,另外,該前置處理器可以是一具有上述該前置處理器的功能的現場可程式邏輯閘陣列(Field Programmable Gate Array, FPGA),或是一具有上述該前置處理器的功能的特殊應用積體電路(Application-specific integrated circuit, ASIC)或是一具有上述有關該前置處理器的功能的軟體模組。k代表一布倫過濾器的尺寸; p、 q及 f代表資料隱私程度的機率參數;
Figure 02_image001
Figure 02_image003
Figure 02_image005
Figure 02_image007
分別代表該布倫過濾器的生成位元、該永久隨機響應機制的生成位元、該瞬時隨機響應機制的生成位元及該合成隨機響應機制的生成位元;ε代表差分隱私的隱私預算值; q’代表當
Figure 02_image001
被設成1時,
Figure 02_image007
產生1的機率; p’代表當
Figure 02_image001
被設成0時,
Figure 02_image007
產生1的機率;以及A代表用戶端資料串的數量。
初步背景說明
本段落會初步說明該差分隱私的定義與隨機響應機制的詳細內容。
A. 該差分隱私與該隨機響應機制
該差分隱私(詳見於參考文件(6))的概念是確保特定機制作用於相鄰的集合所得到的輸出會具有幾乎相同的機率分佈。也就是說,若兩集合之間只有一單一資料的差異,則該單一資料的存在與否並不會顯著地影響到該特定機制對應該兩集合的輸出。
更進一步地解釋,首先假設一宇集D包含所有不同的元素(例如在本發明中,宇集D可以包含原始資料串中所有可能出現的資料組合)。在數學表示上,因為多重集可以用來表達所有可能的元素組合,所以可以使用多行結構的多重集來表示宇集D,而該多重集可以被視為是宇集D包含的所有可能的元素組合。而在差分隱私的架構下,宇集D可以被視為由一可信任資料經手人所持有。另外對於宇集D中的兩個集合D1、D2,如果集合D1、D2之間的一漢明距離(Hamming distance)H(D1;D2)=1,則集合D1、D2被稱為相鄰的集合。
如果一隨機化演算法M符合該ε-差分隱私的定義,則該隨機化演算法M的值域SM (SM
Figure 02_image009
Range (M))以及相鄰的集合D1、D2的關係可以用式(1)來表達:
Figure 02_image011
(1)
如式(1)所示,其中該隨機化演算法M輸出的機率(Pr)是來自於該隨機化演算法M包含的一硬幣投擲機制,以及ε稱為該差分隱私的該隱私預算值。其中ε可以決定該差分隱私定義下的隱私洩露程度,較小的ε可以提供較高的隱私保護,但也會使該隨機化演算法M的輸出精確度下降。
而在用戶端執行的該差分隱私(詳見於參考文件(16)),又稱為用戶端差分隱私,則提供了不存在該可信任的該資料經手人的架構。此時該用戶端可利用該隨機化演算法M處理該用戶端的資料後再傳送給該資料經手人。在這樣的狀況下,宇集D會因為該隨機化演算法M的處理而成為一資料串d,以及集合D1、D2也會對應地成為兩相異的資料串d1與d2。此時,如果該隨機化演算法M符合該ε-差分隱私的定義,則該隨機化演算法M的值域SM (SM
Figure 02_image009
Range (M))以及資料串d1、d2的關係可以用式(2)來表達:
Figure 02_image013
(2)
如式(2)所示,該隨機化演算法M輸出的機率(Pr)是來自於該隨機化演算法M包含的該硬幣投擲機制。
與該差分隱私相對應,該隨機響應機制(詳見於參考文件(17))則是一項在該差分隱私之前就已經發展出來的方法。該隨機響應機制是用來獲取一個體的回答的調查方法,其中該個體的回答是關於敏感性問題的回答(例如,「你是否為同性戀?」)。該隨機響應機制利用秘密性的一硬幣投擲結果以形成一隨機事件,也就是說,該個體在回答問題前,會先秘密地投擲硬幣,並根據投擲硬幣的結果回答問題,其中該個體只會在該硬幣投擲結果為反面時誠實的回答問題,否則該個體將再一次地投擲硬幣,並根據再一次地硬幣投擲結果提供假的回答(例如,當再一次的硬幣投擲結果為正面時,個體回答「是」;而再一次的硬幣投擲結果為反面時,個體回答「否」)。因為該隨機響應機制利用該硬幣投擲結果形成該隨機事件來保護該個體的隱私,所以該隨機響應機制已經被證明是一有效滿足用戶端差分隱私的方法(詳見於參考文件(18))。
SPARR
SPARR包含兩關鍵的技術特徵,分別是多層架構的隨機響應機制與基於自旋電子特性實現的編碼技術,用以實現具有嚴密的隱私保護程度且高實用性的真隨機響應機制。
A. 該多層架構的隨機響應機制
本發明利用上述硬幣投擲的觀點來描述SPARR。首先,該用戶102中的每一用戶端會被永久地分配到m個同僚群組中的一同僚群組,以及該m個同僚群組中的每一同僚群組是利用了h組雜湊編碼中的不同組雜湊編碼。為了簡化說明,本段落的說明考慮了m = 1的狀況(也就是說,所有用戶端都屬於同樣的同僚群組,而且是進行同組雜湊編碼)。則本發明將該輸入資料串雜湊編碼到一具有尺寸k的一布倫過濾器B。因此,布倫過濾器B中的每一生成位元
Figure 02_image001
會在經過三個層級的擾動後被回報,其中該三個層級是由四次特定的硬幣投擲(硬幣1、硬幣2、硬幣3、硬幣4)的四次擾動結果來決定的。表1示出了該四次擾動中該四次硬幣投擲中每一硬幣投擲的機率,其中該每一硬幣投擲的機率會落在0到1的區間。
位元串   正面 反面
布倫過濾器的生成位元
Figure 02_image015
- - -
永久隨機響應機制的生成位元
Figure 02_image017
硬幣1 f 1-f
硬幣2 1/2 1/2
瞬時隨機響應機制的生成位元
Figure 02_image019
硬幣3
Figure 02_image021
Figure 02_image023
合成隨機響應機制的生成位元
Figure 02_image025
硬幣4
Figure 02_image027
1 -
Figure 02_image029
表1, SPARR的該四次硬幣投擲的機率,其中f ∈ [0; 1), p ∈ (0; 1), q ∈ (0; 1),以及p
Figure 02_image030
q
該三個層級的第一層級是該永久隨機響應機制。該永久隨機響應機制的生成位元
Figure 02_image032
是由硬幣1與硬幣2的投擲結果所產生的,其中硬幣1是一不平均的硬幣(硬幣1的投擲結果出現正面的機率是f)。如果硬幣1的投擲結果出現正面,則生成位元
Figure 02_image017
會由硬幣2的投擲結果來決定,其中硬幣2是一平均的硬幣(硬幣2的投擲結果出現正面的機率是1/2)。
如果硬幣1的投擲結果出現反面,則該第一層級不會進行其他動作,並將生成位元
Figure 02_image015
的原始值當作生成位元
Figure 02_image017
的值輸出到下一層級。該三個層級的第二層級是該瞬時隨機響應機制,其中該瞬時隨機響應機制提供了縱向的隱私保護(詳見於參考文件(4)),其中一第一處理器根據一真亂數產生器產生的一第一亂數集合對該原始資料串至少一次地執行一該永久隨機響應機制以生成一暫時資料串(如第2圖所示),以及根據該真亂數產生器產生的一第二亂數集合對該暫時資料串至少一次地執行一該瞬時隨機響應機制以生成具有一第一特徵的一第一資料串(如第2圖所示)。另外,該永久隨機響應機制與該瞬時隨機響應機制是包含於一第一雜訊步驟,以及在該第一處理器對該原始資料串執行該第一雜訊步驟後,該原始資料串中的識別資訊被去識別化。另外。該第一處理器可以是一具有上述該第一處理器的功能的現場可程式邏輯閘陣列,或是一具有上述該第一處理器的功能的特殊應用積體電路,或是一具有上述該第一處理器的功能的軟體模組。
生成位元
Figure 02_image019
(對應到該瞬時隨機響應機制)是由硬幣3的投擲結果所產生的。值得注意的是,生成位元
Figure 02_image017
會影響硬幣3的機率。如果生成位元
Figure 02_image017
=1,則硬幣3的投擲結果出現正面的機率是q,反之,則硬幣3的投擲結果出現正面的機率是p。事實上,該第一層級與該第二層級可以確保該原始資料串的隱私但同時損失該原始資料串中的部份資訊,造成後續資料分析的不準確。
一種提昇該資料分析的準確性的直覺作法是從該原始資料串獲取更多的特徵,同時維持該原始資料串的隱私保護。因此,該三個層級的第三層級是該合成隨機響應機制,其中該第三層級是在該永久隨機響應機制與該瞬時隨機響應機制的基礎下建立在SPARR的架構裡,並且可以強化生成位元
Figure 02_image025
中所包含的生成位元
Figure 02_image015
的特徵,同時維持生成位元
Figure 02_image025
的隨機性。其中一第二處理器根據該真亂數產生器產生的一第三亂數集合對該第一資料串至少一次地執行一該合成隨機響應機制以生成一具有第二特徵的一第二資料串(如第2圖所示),以及該合成隨機響應機制是包含於一第二雜訊步驟。另外,該原始特徵與該第一特徵之間的一第一變異度大於該原始特徵與該第二特徵之間的一第二變異度(如第2圖所示)。
也就是說,該合成隨機響應機制可以復原以及強化該原始特徵以使該第二資料串近似於該原始資料串。例如,第2圖該原始資料串裡具有「1」值的位元與該第二資料串裡具有「1」值的位元相似。因此,本發明可利用生成位元
Figure 02_image007
有效率的重建該輸入資料串,即便該原始資料串具有較低的出現的頻率。如表1所示,該合成隨機響應機制可以控制硬幣4,其中該合成隨機響應機制是用於減少該永久隨機響應機制與該瞬時隨機響應機制所造成的對應到該永久隨機響應機制與該瞬時隨機響應機制的輸出的位移(例如,第2圖中該第二資料串與該原始資料串之間相較於該第一資料串與該原始資料串之間、該暫時資料串與該原始資料串之間都具有較小的位移)。本發明透過對生成位元
Figure 02_image033
Figure 02_image003
、與
Figure 02_image034
的合成考量設計了硬幣4的機率,其中當生成位元
Figure 02_image033
Figure 02_image003
、與
Figure 02_image034
中出現1的機率愈大時,硬幣4出現正面的機率就愈大。例如,當生成位元
Figure 02_image033
Figure 02_image003
、與
Figure 02_image034
中的其中兩個生成位元為1時,硬幣4出現正面的機率是2/3。另外,該布倫過濾器、該永久隨機響應機制、該瞬時隨機響應機制與該合成隨機響應機制都是在該每一用戶端上執行,以及一輸出電路可以將該原始資料串、該第一資料串與該第二資料串輸出至網際網路上的一伺服器。
請參照第3圖,第3圖是說明複數個原始資料串具有特徵分佈、複數個第一資料串具有第一分佈及複數個第二資料串具有第二分佈的示意圖。在本發明的另一實施例中,在該前置處理器對複數個輸入資料串(例如該每一用戶端的隱私資料)進行雜湊編碼以生成該原始資料串後,該原始資料串具有該特徵分佈; 在該第一處理器對該原始資料串執行該永久隨機響應機制以及對該暫時資料串執行該瞬時隨機響應機制以生成該第一資料串後,該第一資料串具有該第一分佈;以及在該第二處理器對該第一資料串執行該合成隨機響應機制以生成該第二資料串後,該第二資料串具有該第二分佈。因此,當網際網路上的該伺服器接收到該複數個原始資料串、該複數個第一資料串與該複數個第二資料串時,該伺服器可以根據該複數個原始資料串的該特徵分佈、該複數個第一資料串的該第一分佈與該複數個第二資料串的該第二分佈繪製出第3圖,其中如第3圖所示,該特徵分佈與該第一分佈之間的一第三變異度大於該特徵分佈與該第二分佈之間的一第四變異度。
另外,在本發明的另一實施例中,一收集與分析資料的裝置包含一真亂數產生器、一處理器單元、一前置處理器及一輸出電路,其中該處理器單元包含一第一處理器及一第二處理器。該真亂數產生器不需要使用一亂數種子來產生複數個亂數(例如一第一亂數集合、一第二亂數集合及一第三亂數集合)。該前置處理器可接收一輸入資料串(例如,該每一用戶端的隱私資料)及對該輸入資料串進行雜湊編碼以生成具有一原始特徵的一原始資料串(例如,第2圖中該原始資料串裡具有「1」值的位元)。在該原始資料串生成後, 該第一處理器可以根據該第一亂數集合與該第二亂數集合對該原始資料串執行一第一雜訊步驟(包含該永久隨機響應機制與該瞬時隨機響應機制)對該原始資料串進行去識別化以生成具有一第一特徵的一第一資料串;以及在該第一資料串生成後, 該第二處理器可以根據該第三亂數集合對該第一資料串執行一第二雜訊步驟(包含該合成隨機響應機制)以生成具有一第二特徵的一第二資料串,其中該原始特徵與該第一特徵之間的一第一變異度大於該原始特徵與該第二特徵之間的一第二變異度。另外,該輸出電路可以輸出該第二資料串至一遠端伺服器(其中該遠端伺服器可以存在於網際網路上)。
綜上所述,本發明可以從條件機率的角度來定量解釋SPARR。如第4圖所示,該三個層級的每一層級都可以在生成位元
Figure 02_image033
= 1或生成位元
Figure 02_image033
= 0的條件下進行。其中為了簡化說明,本發明使用{·}代表si在bi下的條件機率P{si|bi}。
另外,本發明具有下列輔助定理1與輔助定理2:
輔助定理 1 . 當該布倫過濾器的生成位元
Figure 02_image015
為1時,用於回報結果的生成位元
Figure 02_image025
產生1的機率如式(3)所表示:
Figure 02_image035
(3)
輔助定理 2 . 當該布倫過濾器的生成位元
Figure 02_image015
為0時,用於回報結果的生成位元
Figure 02_image025
產生1的機率如式4所表示:
Figure 02_image037
(4)
其中輔助定理1與輔助定理2可由第4圖得到證明。
當SPARR需要對生成位元
Figure 02_image025
解碼時(例如需要進行資料分析時),解碼時需要測量有多少數量
Figure 02_image039
的生成位元
Figure 02_image015
需要被重建(也就是布倫過濾器B的生成位元
Figure 02_image015
的值為1的次數)。本發明以
Figure 02_image041
表達在N個被回報的生成位元
Figure 02_image007
中,生成位元
Figure 02_image007
的值為1的次數。因此,
Figure 02_image041
的期望值可以如式(5)表示:
Figure 02_image043
(5)
因此可以求得
Figure 02_image045
B. 基於自旋電子的編碼 (Spintronics-based Encoding)
如本發明在該隨機響應機制的定義中的描述,SPARR的輸出的機率是來自於該隨機化演算法M包含的一硬幣投擲機制。也就是說,該硬幣投擲機制的結果可以被視為是該隨機化演算法M產生的亂數位元所組成的亂數位元串。為了確保該亂數位元串的隨機性,可以使用一真亂數產生器來取代傳統上使用的一偽亂數產生器或一密碼安全偽亂數產生器。
本發明使用了該組磁穿隧結來實現該真亂數產生器,該真亂數產生器可以被視為該基於自旋電子的真亂數產生器。控制該組磁穿隧結來產生該亂數位元的方法如下。該組磁穿隧結中的一磁穿隧結具有兩種狀態(詳見於參考文件 (12) (3)):反平行狀態(Anti-parallel,AP狀態)與平行狀態(Parallel,P狀態),其中該反平行狀態與該平行狀態分別對應到二進位的數值0與1。該磁穿隧結的一起始狀態(也就是一亂數種子)是未知,因此該磁穿隧結並不需要該起始狀態。因為該磁穿隧結並不需要該起始狀態,所以該磁穿隧結並不需要使用該起始狀態(也就是該亂數種子)來產生複數個亂數,因此防止了該起始狀態(也就是該亂數種子)的一規律性問題造成的用戶隱私洩露。當該磁穿隧結中的自旋轉移力矩導入一電流脈衝進入該磁穿隧結以翻轉該磁穿隧結中的一自由層的磁性時,該自由層的磁性會被該電流脈衝激化至一分叉點。在該分叉點上,一熱攪動效應可以造成一微小的隨機磁性偏差。接著,該自由層的磁性會分別以50%的機率被釋放到該反平行狀態或該平行狀態。最終,本發明可以測量該磁穿隧結的電阻來判斷該磁穿隧結的狀態是該反平行狀態或該平行狀態,因此本發明可以產生該亂數位元中的一亂數位元。
為了確保該亂數串的隨機性,本發明利用該組磁穿隧結的自旋轉移力矩的隨機性獨立地形成八組子系統來產生一亂數位元串
Figure 02_image047
。因此,該亂數串的最終輸出會經過三層的互斥或運算(exclusive OR,XOR)而生成(如式(6)所示)。
Figure 02_image049
(6)
在式(6)中,XOR3 代表該三層的互斥或運算,並代表該亂數位元串的最終輸出。值得注意的是,該磁穿隧結是具有高耐性、低功率與快速存取性質的一新興的磁性材料。進一步地,該磁穿隧結容易整合到許多的設備中(例如物聯網的相關設備)。再進一步地,該磁穿隧結更是使用在一自旋轉移力矩磁隨機存取記憶體(Spin-Transfer Torque Magnetic Random Access Memory,STT-MRAM)的材料。STT-MRAM這種非揮發性記憶體因為具有足以比擬動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)、靜態隨機存取記憶體(Static Random-Access Memory,SRAM)與低成本快閃記憶體(low cost flash memory)的高效能,所以具有成為引領性的記憶體的潛力。因此,該磁穿隧結具有的優點是本發明使用該組磁穿隧結作為組成元件的主要原因。
如本發明在「該多層架構的隨機響應機制」的描述中提到,該瞬時隨機響應機制是用於資料保護的一重要程序。其中該瞬時隨機響應機制基於該永久隨機響應機制所回報的固定的生成位元,在該瞬時隨機響應機制每一次的回報中產生不同的生成位元,避免了重複性地收集資料時隱私洩露的風險。因此,該瞬時隨機響應機制的隨機性決定了該瞬時隨機響應機制所提供的縱向的隱私保護的程度。另外,本發明使用該複數個磁穿隧結來實現該真亂數產生器,其中該真亂數產生器是基於具有不確定性的一物理事件來產生該亂數。然而,該複數個磁穿隧結只能產生該亂數位元,因此,本發明需要另外設計一種將該亂數位元對應到0與1之間的亂數值的方法。
演算法1展示了利用該組磁穿隧結產生該亂數值的程式。其中因為亂數位元長度l會決定該亂數值的粒度 (granularity),所以亂數位元長度l需要被仔細地選擇。首先,本發明初始化該組磁穿隧結並獨立地操作複數個磁穿隧結以產生l個該亂數位元,並執行該三層的互斥或運算以產生一亂數位元序列x(其中x = XOR3 ,見於演算法1的第2行)。最後,亂數位元序列x會經過float(x/(2l - 1))被轉換成一亂數x* (其中float()函式會對輸入值取浮點數,見於演算法1的第3行)。
演算法 1: TRNG()
輸入:    亂數位元長度l∈N
輸出:    亂數x*
1    初始化複數個磁穿隧結並產生l個亂數位元;
2    執行三層的互斥或運算以產生亂數位元序列x= XOR3;
3     將亂數位元序列x轉換為亂數x*
x*= float(x/(2l - 1)) ;
4     輸出x*
演算法2展示了SPARR中利用TRNG()對亂數資料編碼(也就是回報該瞬時隨機響應機制的生成位元
Figure 02_image051
)的程式。對該生成位元
Figure 02_image003
,TRNG()會被用以產生亂數x* (見於演算法2的第1行),以及亂數x* 會被與機率
Figure 02_image052
比較(見於演算法2的第2行)。當亂數x* 比機率
Figure 02_image052
小時,生成位元
Figure 02_image051
會輸出1;否則生成位元
Figure 02_image051
會輸出0(見於演算法2的第2-5行)。
演算法 2: 利用 TRNG() 對亂數 資料 編碼
輸入:    永久隨機響應機制的生成位元
Figure 02_image054
,以及機率參數p,q
輸出:    編碼後的生成位元
Figure 02_image055
1    x* =TRNG();
2    當x* <
Figure 02_image057
,則
3
Figure 02_image059
=1
4     反之
5
Figure 02_image060
=0
6     迴圈結束
7     輸出
Figure 02_image061
系統分析
A. 差分隱私保證
定理 1. SPARR是符合ε-差分隱私的一演算法,其中ε的定義如式(7)所示:
Figure 02_image062
(7)
在不失一般性的狀況下,本發明假設va與vb是兩相異的用戶端資料串,以及對應該用戶端資料串的布倫過濾器的生成位元
Figure 02_image015
如式(8)所示(其中va與vb中對應生成位元
Figure 02_image015
的集合以Ba 與Bb 表示):
Figure 02_image064
(8)
則根據輔助定理1與輔助定理2,本發明可以得知生成位元
Figure 02_image066
是一具有伯努利分佈的隨機變數,以及在不同狀況下所對應的條件機率的概率質量函數如式(9)到式(12)所示:
Figure 02_image068
(9)
以及
Figure 02_image070
(10)
Figure 02_image072
(11)
以及
Figure 02_image074
(12)
假設比值RP是對應Ba 與Bb 的條件機率的比值,以及S是對應S’所有可能的輸出,則利用參考文件(21)的觀察1所得到的結論,RP可以經由式(13)的推導得到:
Figure 02_image076
(13)
如式(13)所示,其中
Figure 02_image078
以及
Figure 02_image080
為了滿足該差分隱私的定義,比值RP必須被eε 所限制。因此,本發明可以利用式(7)來計算隱私預算值ε。
B. 該複數個磁穿隧結所產生的該亂數位元的隨機性分析
優秀的亂數必須符合不可預測性的要求,也就是說該亂數不該具有規律性。另外,優秀的亂數位元也必須符合均勻性的要求,也就是說該亂數位元中包含的0與1應該具有概略相同的出現頻率。在利用該複數個磁穿隧結得到該亂數位元後,本發明利用一統計測試套件NIST-SP800 (詳見於參考文件 (2))以測試本發明的該亂數位元,其中NIST-SP800提供多種統計測試的方式詳見於參考文件(2)的第二段落。
統計測試 通過測試的序列 成功或失敗
頻率(Frequency) 987/1000 成功
塊內頻率(Block Frequency) 1000/1000 成功
累積和(Cumulative Sums) 994/1000 成功
游程(Runs) 986/1000 成功
最長游程(Longest Run) 1000/1000 成功
離散傅立葉變換(FFT) 995/1000 成功
估算熵(Approximate Entropy) 1000/1000 成功
序列(Serial) 995/1000 成功
表2, 該複數個磁穿隧結產生的該亂數位元在NIST-SP800的統計測試結果
在八種特定的統計測試的方式下,本發明在表2中計算出通過該統計測試的序列的比例以指示該亂數位元是否通過該統計測試。如表2所示,當1000個序列(其中每一序列包含100個該亂數位元)被用以當作測試目標時,除了隨機偏移(變體)的例外之外,通過測試的序列比例大約為986/1000,表示通過了NIST-SP800的統計測試。
實驗評估
在本段落中,本發明會詳細的比較RAPPOR與SPARR。雖然Fanti et al.(詳見於參考文件(11))提出了關於RAPPOR的一擴充版本,該擴充版本主要關注在不需要一精確的資料解碼字典時估算用戶端資料串。然而,參考文件(11)中的估算的準確度只與RAPPOR相同或是更低。因此,參考文件(11)無法與本發明比較。
在本段落的A段落中,本發明會介紹三種指標用來評估RAPPOR與SPARR。在本段落的B段落中與C段落中,本發明會使用三種模擬範例以及一種真實世界範例來分別評估本發明。該三種模擬範例分別使用常態分佈(normal distribution)、zipf1分佈(zipf1 distribution)與指數分佈(exponential distribution)來演示當RAPPOR與SPARR中的ε、k、 m與 N值變化時造成的影響。該真實世界範例是用來演示當RAPPOR與SPARR中的ε值變化時造成的影響。
A. 結果指標( Resultant Metrics
假設A代表用戶端的資料串的數量,以及ai (i
Figure 02_image082
{1, 2, ...., A} )是每一用戶端的資料串的比例。令Rr 與Rs 分別代表RAPPOR與SPARR重建的不同用戶端的資料串,以及τri 與τsi 代表該重建的不同用戶端的資料串的比例。
在此,本發明利用假陰性率來分析RAPPOR與SPARR在尋找特定資料串時失敗的機率。為了簡化說明,FNr與FNs分別代表RAPPOR與SPARR的假陰性率。正式地來說,FNr與FNs的定義如式(14)所示:
Figure 02_image084
(14)
另外,總變異量距離是用來測量兩機率分佈之間的距離。簡單來說,總變異量距離是該兩機率分佈中被分配到同一事件的機率的最大距離。在一有限的機率空間中,總變異量距離在性質上是與l1有關。為了簡化說明,TVr與TVs分別代表RAPPOR與SPARR的總變異量距離。正式地來說,TVr與TVs的定義如式(15)所示:
Figure 02_image086
(15)
如式(15)所示,1/2是將總變異量距離限制在0到1之間的一標準化常數。
另外,分配質量是該重建的不同用戶端的資料串的總比例。為了簡化說明,本發明使用AMr與AMs分別代表RAPPOR與SPARR的分配質量。正式地來說,AMr與AMs的定義如式(16)所示:
Figure 02_image088
(16)
B. 模擬結果
在說明上述結果指標後,本發明首先使用一系列的模擬來比較RAPPOR與SPARR,並將實驗分成兩個部份。
在第一個部份,本發明改變k、m與N的值,影響了RAPPOR與SPARR的準確度但不影響隱私保護的程度。更詳細地來說,本發明將ε固定為4,該值對RAPPOR與SPARR的限制都是相對少的。因此,本發明可以忠實地觀察到k、m與N對RAPPOR與SPARR的準確度的影響。本發明在第二個部份中設定k=8、m=56以及n=1000000,這些數值會在第一個部份中被證實是RAPPOR與SPARR的最佳環境。接著,本發明透過調整h、f、p及 q的值分別將ε的值設定為1到4,並應用不同的機率分佈來觀察不同保護程度所造成的影響。
1)改變k、m與N的值所造成的影響:不同的測試範例與對應的實驗結果請參照表3以及第5A-5C圖。本發明只顯示基於常態分佈的關鍵實驗結果,但不會影響本發明在說明上的一般性。 (a)
測試範例 結果指標
Rr Rs ΔR FNr FNs ΔFN TVr TVs ΔTV AMr AMs ΔAM
k=4 25 85 60 0.75 0.15 -0.6 0.46 0.11 -0.35 0.53 0.99 0.46
k=8 53 89 36 0.47 0.11 -0.36 0.19 0.06 -0.14 0.87 0.99 0.12
k=16 62 92 30 0.38 0.18 -0.3 0.12 0.06 -0.07 0.92 0.98 0.06
k=24 61 98 37 0.39 0.02 -0.37 0.11 0.05 -0.06 0.93 0.98 0.05
k=32 66 90 24 0.34 0.1 -0.24 0.1 0.05 -0.05 0.94 0.97 0.02
平均值 53 91 37 0.47 0.09 -0.37 0.2 0.07 -0.13 0.84 0.98 0.14
±2 ±1 ±3 ±0.02 ±0.01 ±0.03 ±0.01 ±0.01 ±0.02 ±0.03 ±0.04 ±0.07
(b)
測試範例 結果指標
Rr Rs ΔR FNr FNs ΔFN TVr TVs ΔTV AMr AMs ΔAM
m= 16 46 75 29 0.54 0.25 -0.29 0.23 0.14 -0.1 0.79 0.98 0.19
m= 24 77 87 43 0.56 0.13 -0.43 0.25 0.09 -0.16 0.77 0.99 0.22
m= 32 48 89 41 0.52 0.11 -0.41 0.23 0.08 -0.15 0.82 0.99 0.18
m= 40 57 92 35 0.43 0.08 -0.35 0.16 0.07 -0.10 0.89 0.99 0.10
m= 48 58 92 34 0.42 0.08 -0.34 0.17 0.06 -0.11 0.90 0.99 0.09
m= 56 54 91 37 0.46 0.09 -0.37 0.20 0.05 -0.14 0.86 0.99 0.12
m= 64 51 93 42 0.49 0.07 -0.42 0.20 0.05 -0.15 0.87 0.99 0.12
平均值 51 88 37 0.49 0.12 -0.37 0.21 0.08 -0.13 0.84 0.99 0.15
±2 ±1 ±3 ±0.02 ±0.01 ±0.03 ±0.01 ±0.00 ±0.01 ±0.03 ±0.04 ±0.07
(c)
測試範例 結果指標
Rr Rs ΔR FNr FNs ΔFN TVr TVs ΔTV AMr AMs ΔAM
N=100000 19 69 50 0.81 0.31 -0.50 0.44 0.11 -0.32 0.49 0.94 0.45
N=250000 29 80 51 0.71 0.20 -0.51 0.37 0.08 -0.29 0.70 0.97 0.27
N=500000 41 88 47 0.59 0.12 -0.47 0.28 0.06 -0.22 0.77 0.98 0.22
N=750000 46 88 42 0.54 0.12 -0.42 0.21 0.05 -0.16 0.80 0.98 0.18
N=1000000 55 90 35 0.45 0.10 -0.35 0.17 0.05 -0.12 0.89 0.99 0.10
平均值 38 83 45 0.62 0.17 -0.45 0.29 0.07 -0.22 0.73 0.97 0.24
±3 ±1 ±4 ±0.03 ±0.01 ±0.04 ±0.01 ±0.00 ±0.01 ±0.03 ±0.04 ±0.07
表3,在k、m與N的不同數值模擬的結果指標(對應到假陰性率、總變異量距離、分配質量)
在範例(a)中,本發明分別將k值設定為4到32。和RAPPOR相比,SPARR平均可以降低37%的假陰性率,以及降低13%總變異量距離。同時,SPARR平均可以提昇14%的分配質量。更詳細地來說,SPARR的優點在k值逐步地減少時會變得更加突出,代表SPARR在具有低頻寬的苛刻的網路環境下仍然可以達到良好的資料預測準確度。
同僚群組的數量m會影響兩個資料串在該布倫過濾器中的碰撞機率。為了確保準確度,本發明需要在N與m的值之間權衡。在範例(b)中,當m值分別設定為16到64,SPARR平均可以顯著地降低37%的假陰性率與降低13%的總變異量距離,以及維持分配質量大約等於1。
在範例(c)中展示了較少的資料量重建的不同用戶端的資料串的數量以及被回報的數量N的關係。和RAPPOR相比,SPARR平均可以顯著地降低45%的假陰性率、降低22%的總變異量距離與降低24%的分配質量。表示了SPARR可以利用較少的資料量來準確地測量不同的用戶端資料串的分佈。明確地來說,即使具有較少的資料量,SPARR仍然可以使用在一般平臺上。
2)改變ε的值所造成的影響:本發明在表4以及第6A-6C圖中展示了對於不同的機率分佈(其中第6A圖對應常態分佈、第6B圖對應zipf1分佈、第6C圖對應指數分佈),當ε值分別設定為1到4時所造成的影響。其中設定k=8、m=56以及n=1000000。和RAPPOR相比,當該資料串具有的機率分佈是常態分佈時,SPARR平均可以改進51%的假陰性率、改進20%的總變異量距離與改進18%的分配質量。當該資料串具有的機率分佈是zipf1分佈時,SPARR平均可以改進67%的假陰性率、改進16%的總變異量距離與改進17%的分配質量。當該資料串具有的機率分佈是指數分佈時,SPARR平均可以改進55%的假陰性率、改進17%的總變異量距離與改進15%的分配質量。很明顯地,根據上述指標,無論該資料串具有何種機率分佈, SPARR都可以擁有比RAPPOR更好的表現。 (a)
測試範例(常態分佈) 結果指標
Rr Rs ΔR FNr FNs ΔFN TVr TVs ΔTV AMr AMs ΔAM
ε=1 1 69 68 0.99 0.31 -0.68 0.56 0.17 -0.39 0.14 0.67 0.54
ε=1.5 5 71 66 0.95 0.29 -0.66 0.56 0.25 -0.31 0.27 0.50 0.23
ε=2 29 79 50 0.71 0.21 -0.50 0.36 0.20 -0.16 0.58 0.62 0.05
ε=2.5 34 84 50 0.66 0.16 -0.50 0.28 0.14 -0.14 0.69 0.75 0.06
ε=3 42 83 41 0.58 0.17 -0.41 0.22 0.10 -0.13 0.75 0.85 0.11
ε=3.5 41 91 50 0.59 0.09 -0.50 0.23 0.07 -0.15 0.74 0.93 0.18
ε=4 56 89 33 0.44 0.11 -0.33 0.19 0.06 -0.12 0.90 0.99 0.10
平均值 30 81 51 0.70 0.19 -0.51 0.34 0.14 -0.20 0.58 0.76 0.18
±3 ±1 ±4 ±0.03 ±0.01 ±0.04 ±0.01 ±0.01 ±0.02 ±0.02 ±0.03 ±0.05
(b)
測試範例(zipf1分佈) 結果指標
Rr Rs ΔR FNr FNs ΔFN TVr TVs ΔTV AMr AMs ΔAM
ε=1 0 68 68 1.00 0.32 -0.68 0.50 0.18 -0.32 0.00 0.66 0.66
ε=1.5 5 79 74 0.95 0.21 -0.74 0.46 0.26 -0.21 0.37 0.50 0.13
ε=2 23 83 60 0.77 0.17 -0.60 0.27 0.20 -0.08 0.71 0.63 -0.08
ε=2.5 19 85 66 0.81 0.15 -0.66 0.28 0.16 -0.13 0.69 0.75 0.06
ε=3 28 95 67 0.72 0.05 -0.67 0.25 0.11 -0.14 0.77 0.86 0.08
ε=3.5 25 94 69 0.75 0.06 -0.69 0.23 0.09 -0.14 0.77 0.93 0.16
ε=4 31 93 62 0.69 0.07 -0.62 0.19 0.09 -0.10 0.79 0.99 0.20
平均值 19 85 66 0.81 0.15 -0.67 0.31 0.15 -0.16 0.59 0.76 0.17
±3 ±1 ±4 ±0.03 ±0.01 ±0.04 ±0.01 ±0.01 ±0.02 ±0.02 0.03 ±0.05
(c)
測試範例(指數分佈) 結果指標
Rr Rs ΔR FNr FNs ΔFN TVr TVs ΔTV AMr AMs ΔAM
ε=1 1 63 62 0.99 0.37 -0.62 0.55 0.18 -0.37 0.10 0.68 0.58
ε=1.5 5 70 65 0.95 0.30 -0.65 0.54 0.26 -0.28 0.33 0.50 0.17
ε=2 24 80 56 0.76 0.20 -0.56 0.29 0.19 -0.10 0.69 0.64 -0.06
ε=2.5 27 79 52 0.73 0.21 -0.52 0.30 0.15 -0.15 0.70 0.74 0.05
ε=3 39 87 48 0.61 0.13 -0.48 0.22 0.12 -0.10 0.82 0.85 0.03
ε=3.5 36 86 50 0.64 0.14 -0.50 0.18 0.08 -0.09 0.79 0.93 0.14
ε=4 38 87 49 0.62 0.13 -0.49 0.16 0.07 -0.08 0.82 0.99 0.18
平均值 24 79 55 0.76 0.21 -0.55 0.32 0.15 -0.17 0.61 0.76 0.15
±3 ±1 ±4 ±0.03 ±0.01 ±0.04 ±0.01 ±0.01 ±0.02 ±0.03 ±0.03 ±0.06
表4,在ε的不同數值模擬的結果指標(對應到假陰性率、總變異量距離、分配質量)
更直覺地,本發明評估該用戶端資料串在三種機率分佈(常態分佈、zipf1分佈、指數分佈時)下重建的分佈與該用戶端資料串的真實頻率來比較SPARR與RAPPOR,如第7A-7C圖所示(其中第7A圖對應常態分佈、第7B圖對應zipf1分佈、第7C圖對應指數分佈),其中縱軸表示頻率的比例。第7A-7C圖在ε = 4的條件下設定k=32、m=56以及n=1000000。值得注意的是,為了公平地比較SPARR與RAPPOR,本發明選擇了對SPARR與RAPPOR來說最佳的環境,也就是ε = 4的狀況。根據第7A-7C圖,與RAPPOR比較時,SPARR明顯地改進了在低頻率下偵測該用戶端資料串的能力並同時維持所收集的資料串的高重建能力。
C. 真實世界範例
除了模擬資料的範例之外,本發明也對SPARR與RAPPOR提供了真實世界的資料集。明確地來說,該資料集是來自參考文件(1)(用於挖掘資料集的頻率物件集存儲庫,Frequent Itemset Mining Dataset Repository,由Ferenc Bodon提出)中的Kosarak資料集。Kosarak資料集紀錄了關於41270個不同網站的990000次的點擊動作回報,而網站管理者可以透過測量點擊動作知道各個網站的造訪數量。在不失一般性的情況下,本發明只使用了該不同網站的其中100個最常被造訪的網站。與上述段落的實驗設定相似,本發明設定k=32、m=56以及n=1000000,以及ε設定為1到4,並在間隔(interval)為0.5的狀況下進行實驗。
因為該隨機響應與統計推斷上的限制,本發明仍需要大量的回報以找出不同網站以及對應不同網站的點擊動作。如同在參考文件(7) (13)提到的,這也是在隱私保護與資料使用性之間的權衡。然而,如同後續的展示,本發明可以在達到更好得隱私保護的同時,重建更多具有較低點擊率(click through rate,CTR)的網站。
實驗結果如表5以及第8圖所示。可以很明顯地看到在相同的ε下,與RAPPOR 相比,SPARR具有較低的假陰性率以及較低的總變異量距離,同時犧牲了較少的分配質量。隨著ε的值減少,SPARR的優點會變得更加明顯。第9圖可以很明顯地顯示出SPARR與RAPPOR利用Kosarak資料集在ε = 4的情況下重建的該用戶端資料串的分佈。值得注意的是,當聚焦於具有較高點擊率的網站時,本發明並不會忽略具有重要意義但是在機率分布上位在長尾(long tail)的網站,例如對特定族群提供特定主題的網站。可以看到因為SPARR可以在獨立於點擊率的狀況下幾乎重建所有的網站,所以SPARR比RAPPOR具有更好的公平性。
測試範例(常態分佈) 結果指標
Rr Rs ΔR FNr FNs ΔFN TVr TVs ΔTV AMr AMs ΔAM
ε=1 3 89 86 0.97 0.11 -0.86 0.34 0.26 -0.08 0.31 0.47 0.16
ε=1.5 8 94 86 0.92 0.06 -0.86 0.30 0.25 -0.05 0.54 0.51 -0.03
ε=2 26 95 69 0.74 0.05 -0.69 0.18 0.18 0.00 0.78 0.64 -0.14
ε=2.5 32 97 65 0.68 0.03 -0.65 0.20 0.14 -0.06 0.80 0.76 -0.04
ε=3 43 97 54 0.57 0.03 -0.54 0.15 0.11 -0.04 0.86 0.85 -0.01
ε=3.5 39 97 58 0.61 0.03 -0.58 0.17 0.09 -0.08 0.84 0.92 0.08
ε=4 53 95 42 0.47 0.05 -0.42 0.12 0.09 -0.03 0.91 0.98 0.07
平均值 29 95 66 0.71 0.05 -0.66 0.21 0.16 -0.05 0.72 0.73 0.01
±3 ±1 ±4 ±0.02 ±0.01 ±0.03 ±0.01 ±0.01 ±0.02 ±0.03 0.03 ±0.06
表5,在ε的不同數值下對真實世界範例模擬的結果指標(對應到假陰性率、總變異量距離、分配質量)
結論
SPARR是基於該組磁穿隧結的物理事件的一種實際的資料保護機制,用於眾包(crowdsourced)的資料收集且具有高利用率以及數學上嚴格的隱私保證。SPARR利用該組磁穿隧結來實現該基於自旋電子的真亂數產生器以產生真亂數。因為該基於自旋電子的真亂數產生器以及四次特定的硬幣投擲設計,所以SPARR可以保護隱私以及從該用戶端收集的資料形成的眾包分佈統計,並精准的對資料解碼。另外,本發明也可以在記憶體計算中應用深度學習技巧以提昇資料分析的效率以及準確度,並且可以在大部分的資料分析應用上應用本發明。
以上該僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
參考文件:
(1) Kosarak. Available at http://fimi.ua.ac.be/data/.
(2) A. Rukhin, J. Soto, J. Nechvatal, M. Smid, E. Barker, S. Leigh, M. Levenson, M. Vangel, D. Banks, A. Heckert, J. Dray, and S. Vo, “A Statistical Test Suite for Random and Pseudorandom Number Generators for Cryptographic Applications,” National Institute of Standards and Technology (NIST), Special Publication 800-22 Revision 1. Available at http://csrc.nist.gov/publications/PubsSPs.html, 2008.
(3) A. Fukushima, T. Seki, K. Yakushiji, H. Kubota, H. Imamura, S. Yuasa, and K. Ando, “Spindice: A Scalable Truly Random Number Generator Based on Spintronics,” in Journal of Applied Physics Express, vol. 7, no. 8, pp. 083001, 2014.
(4) B. Edwards, S. Hofmeyr, S. Forrest, and M. V. Eeten, “Analyzing and Modeling Longitudinal Security Data: Promise and Pitfalls,” in Proceedings of the 31st Annual Computer Security Applications Conference, pp. 391-400, 2015.
(5) B. H. Bloom, “Space/Time Trade-offs in Hash Coding with Allowable Errors,” Communications of the ACM, vol. 13, no. 7, pp. 422-426, 1970.
(6) C. Dwork, “Differential Privacy,” in Proceedings of the 33rd International Colloquium on Automata, Languages and Programming, pp. 1-12, 2006.
(7) C. Dwork, F. McSherry, K. Nissim, and A. Smith, “Calibrating Noise to Sensitivity in Private Data Analysis,” in 3rd Theory of Cryptography Conference, pp. 265-284, 2006.
(8) C. Wang, K. Ren, S. Yu, and K. M. R. Urs, “Achieving Usable and Privacyassured Similarity Search over Outsourced Cloud Data,” in Proceedings of IEEE International Conference on Computer Communications, pp. 451-459, 2012.
(9) D. J. Bernstein, “ChaCha, a Variant of Salsa20.” Available at http://cr.yp.to/chacha.html, 2008.
(10) E. Stefanov, C. Papamanthou, and E. Shi, “Practical Dynamic Searchable Encryption with Small Leakage,” in Proceedings of Network Distribution System Security Symposium, 832-848, 2014.
(11) G. Fanti, V. Pihur, U. Erlingsson, “Building a RAPPOR with the Unknown: Privacy-Preserving Learning of Associations and Data Dictionaries,” in Proceedings on Privacy Enhancing Technologies, pp. 41-61, 2016.
(12) J.D. Harms, F. Ebrahimi, X. Yao, and J.-P. Wang, “SPICE Macromodel of Spin-Torque-Transfer-Operated Magnetic Tunnel Junctions,” in IEEE Transactions on Electron Devices, vol. 57, no. 7, pp. 1425-1430, 2010.
(13) N. Papernot, M. Abadi, U. Erlingsson, I. Goodfellow, and K. Talwar, “Semi-Supervised Knowledge Transfer for Deep Learning from Private Training Data,” In Proceedings of the 5th International Conference on Learning Representations, to appear, 2017.
(14) R. Bassily, and A. Smith, “Local, Private, Efficient Protocols for Succinct Histograms,” in Proceedings of the Forty-Seventh Annual ACM Symposium on Theory of Computing, pp. 127-135, 2015.
(15) R. Chen, A. Reznichenko, P. Francis, and J. Gehrke, “Towards Statistical Queries over Distributed Private User Data,” in Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation, pp. 169-182, 2012.
(16) S. P. Kasiviswanathan, H. K. Lee, K. Nissim, S. Raskhodnikova, and A. Smith, “What Can We Learn Privately?,” in SIAM Journal of Computing, vol. 40, no. 3, pp. 793-826, 2011.
(17) S. Warner, “Randomized Response: A Survey Technique for Eliminating Evasive Answer Bias,” in Journal of the American Statistical Association, vol. 60, no. 309, pp. 63-69, 1965.
(18) T-H. Chan, E. Shi, and D. Song, “Optimal Lower Bound for Differentially Private Multi-Party Aggregation,” in Proceedings of the 20th Annual European conference on Algorithms, pp. 277-288, 2012.
(19) T. Jung, X.-Y. Li, Z. Wan, and M. Wan, “Privacy preserving cloud data access with multi-authorities,” in Proceedings of IEEE International Conference on Computer Communications, pp. 2625-2633, 2013.
(20) T. Wang, J. Blocki, N. Li, and S. Jha, “Optimizing Locally Differentially Private Protocols,” in 26th USENIX Security Symposium, to appear, 2017.
(21) U. Erlingsson, V. Pihur, and A. Korolova, “RAPPOR: Randomized aggregatable privacy-preserving ordinal response,” In Proceedings of the ACM SIGSAC Conference on Computer and Communications Security, pp. 1054-1067, 2014.
(22) Y. Sei and A. Ohsuga, “Differential Private 收集資料 and Analysis Based on Randomized Multiple Dummies for Untrusted Mobile Crowdsensing,” in IEEE Transactions on Information Forensics and Security, vol. 12, no. 4, pp. 926-939, 2017.
(23) Z. Qin, Y. Yang, T. Yu, I. Khalil, X. Xiao, and K. Ren, “Heavy Hitter Estimation over Set-Valued Data with Local Differential Privacy,” in Proceedings of the ACM SIGSAC Conference on Computer and Communications Security, pp. 192-203, 2016. 以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。
102:用戶 104:存儲伺服器 106:資料分析者
Figure 02_image001
:布倫過濾器的生成位元
Figure 02_image003
:永久隨機響應機制的生成位元
Figure 02_image090
:瞬時隨機響應機制的生成位元
Figure 02_image007
:合成隨機響應機制的生成位元 f、p、q:資料隱私程度的機率參數 PRR:永久隨機響應機制 IRR:瞬時隨機響應機制 SRR:合成隨機響應機制
第1圖是說明SPARR中群眾感知與收集模型的示意圖。 第2圖是說明雜湊編碼、永久隨機響應機制、瞬時隨機響應機制與合成隨機響應機制的示意圖。 第3圖是說明複數個原始資料串具有特徵分佈、複數個第一資料串具有第一分佈及複數個第二資料串具有第二分佈的示意圖。 第4圖是從條件機率的角度來說明多層架構的隨機響應機制的示意圖。 第5A-5C圖是說明改變k、m、及N時對應到假陰性率、總變異量距離、分配質量的比較的示意圖。 第6A-6C圖是說明改變ε時對應到假陰性率、總變異量距離、分配質量的比較的示意圖。 第7A-7C圖是說明SPARR與RAPPOR在ε = 4時分別利用(a)常態分佈、(b)zipf1分佈以及(c)指數分佈重建用戶端的資料串的分佈的示意圖。 第8圖是說明SPARR與RAPPOR在不同ε下使用Kosarak資料集的比較的示意圖。 第9圖是說明SPARR與RAPPOR在ε= 4下使用Kosarak資料集所重建的用戶端資料串的分佈的示意圖。
PRR:永久隨機響應機制
IRR:瞬時隨機響應機制
SRR:合成隨機響應機制

Claims (2)

  1. 一種收集與分析資料的裝置,包含: 一真亂數產生器,其中該真亂數產生器不需使用一亂數種子來產生複數個亂數; 一處理器單元,基於該複數個亂數對具有一原始特徵的一原始資料串中的識別資訊進行去識別化,並生成具有一第二特徵的一第二資料串;及 一輸出電路,用於輸出該第二資料串至一遠端伺服器。
  2. 如請求項1所述的裝置,另包含: 一前置處理器,用於接收一輸入資料串並對該輸入資料串進行雜湊編碼以生成具有該原始特徵的該原始資料串。
TW109123041A 2018-03-01 2019-02-27 收集與分析資料的裝置 TWI799722B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201862636857P 2018-03-01 2018-03-01
US62/636,857 2018-03-01

Publications (2)

Publication Number Publication Date
TW202046138A true TW202046138A (zh) 2020-12-16
TWI799722B TWI799722B (zh) 2023-04-21

Family

ID=67767694

Family Applications (3)

Application Number Title Priority Date Filing Date
TW112108687A TWI840155B (zh) 2018-03-01 2019-02-27 收集與分析資料的裝置及其方法
TW109123041A TWI799722B (zh) 2018-03-01 2019-02-27 收集與分析資料的裝置
TW108106882A TWI702505B (zh) 2018-03-01 2019-02-27 收集與分析資料的方法與相關的裝置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
TW112108687A TWI840155B (zh) 2018-03-01 2019-02-27 收集與分析資料的裝置及其方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
TW108106882A TWI702505B (zh) 2018-03-01 2019-02-27 收集與分析資料的方法與相關的裝置

Country Status (3)

Country Link
US (2) US11514189B2 (zh)
CN (2) CN117724679A (zh)
TW (3) TWI840155B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI824927B (zh) * 2023-01-17 2023-12-01 中華電信股份有限公司 具差分隱私保護之資料合成系統、方法及其電腦可讀媒介

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995736B (zh) * 2019-12-13 2021-11-30 中国兵器装备集团自动化研究所有限公司 一种通用的工业物联网设备管理系统
US11676160B2 (en) 2020-02-11 2023-06-13 The Nielsen Company (Us), Llc Methods and apparatus to estimate cardinality of users represented in arbitrarily distributed bloom filters
US11741068B2 (en) * 2020-06-30 2023-08-29 The Nielsen Company (Us), Llc Methods and apparatus to estimate cardinality of users represented across multiple bloom filter arrays
US11755545B2 (en) 2020-07-31 2023-09-12 The Nielsen Company (Us), Llc Methods and apparatus to estimate audience measurement metrics based on users represented in bloom filter arrays
US11552724B1 (en) 2020-09-16 2023-01-10 Wells Fargo Bank, N.A. Artificial multispectral metadata generator
US11929992B2 (en) * 2021-03-31 2024-03-12 Sophos Limited Encrypted cache protection
WO2022225302A1 (ko) * 2021-04-19 2022-10-27 서울대학교산학협력단 위치 데이터에 대한 빈도 분포 추정 방법 및 서버
KR102527982B1 (ko) * 2021-04-19 2023-05-02 서울대학교산학협력단 위치 정보 수집 방법, 위치 정보 제공 방법 및 이를 실행하는 장치
US20230017374A1 (en) * 2021-06-24 2023-01-19 Sap Se Secure multi-party computation of differentially private heavy hitters
US11854030B2 (en) 2021-06-29 2023-12-26 The Nielsen Company (Us), Llc Methods and apparatus to estimate cardinality across multiple datasets represented using bloom filter arrays
CN114614974B (zh) * 2022-03-28 2023-01-03 云南电网有限责任公司信息中心 一种用于电网数据跨行业共享的隐私集合求交方法、系统及装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI415315B (zh) * 2009-04-07 2013-11-11 Univ Nat Changhua Education 軌道競賽式非揮發性記憶體製造方法及其結構
EP2465069B1 (en) * 2009-08-14 2018-02-21 Intrinsic ID B.V. Physically unclonable function with tamper prevention and anti-aging system
US9778912B2 (en) * 2011-05-27 2017-10-03 Cassy Holdings Llc Stochastic processing of an information stream by a processing architecture generated by operation of non-deterministic data used to select data processing modules
US9020873B1 (en) * 2012-05-24 2015-04-28 The Travelers Indemnity Company Decision engine using a finite state machine for conducting randomized experiments
US10043035B2 (en) * 2013-11-01 2018-08-07 Anonos Inc. Systems and methods for enhancing data protection by anonosizing structured and unstructured data and incorporating machine learning and artificial intelligence in classical and quantum computing environments
TWI528217B (zh) * 2014-07-02 2016-04-01 柯呈翰 於線上加上即時檔案動態標籤、加密之系統及方法
CN105306194B (zh) * 2014-07-22 2018-04-17 柯呈翰 供加密档案和/或通讯协定的多重加密方法与系统
CN104867138A (zh) * 2015-05-07 2015-08-26 天津大学 基于pca和ga-elm的立体图像质量客观评价方法
US9813440B1 (en) * 2015-05-15 2017-11-07 Shape Security, Inc. Polymorphic treatment of annotated content
IL239880B (en) * 2015-07-09 2018-08-30 Kaluzhny Uri Simplified montgomery multiplication
US10387627B2 (en) * 2015-09-28 2019-08-20 Kryptowire LLC Systems and methods for analyzing software
FR3047586A1 (fr) * 2016-02-09 2017-08-11 Orange Procede et dispositif d'anonymisation de donnees stockees dans une base de donnees
WO2017187243A1 (en) * 2016-04-25 2017-11-02 Uhnder, Inc. Vehicular radar sensing system utilizing high rate true random number generator
US10390220B2 (en) * 2016-06-02 2019-08-20 The Regents Of The University Of California Privacy-preserving stream analytics
US10229282B2 (en) * 2016-06-12 2019-03-12 Apple Inc. Efficient implementation for differential privacy using cryptographic functions
US10628608B2 (en) * 2016-06-29 2020-04-21 Sap Se Anonymization techniques to protect data
US10778633B2 (en) * 2016-09-23 2020-09-15 Apple Inc. Differential privacy for message text content mining
US10776242B2 (en) * 2017-01-05 2020-09-15 Microsoft Technology Licensing, Llc Collection of sensitive data—such as software usage data or other telemetry data—over repeated collection cycles in satisfaction of privacy guarantees
US10691829B2 (en) * 2017-04-13 2020-06-23 Fujitsu Limited Privacy preservation
US10599868B2 (en) * 2017-06-04 2020-03-24 Apple Inc. User experience using privatized crowdsourced data
US10958452B2 (en) * 2017-06-06 2021-03-23 Analog Devices, Inc. System and device including reconfigurable physical unclonable functions and threshold cryptography
CN107358115B (zh) * 2017-06-26 2019-09-20 浙江大学 一种考虑实用性的多属性数据去隐私方法
US10902149B2 (en) * 2018-02-01 2021-01-26 Microsoft Technology Licensing, Llc Remote testing analysis for software optimization based on client-side local differential privacy-based data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI824927B (zh) * 2023-01-17 2023-12-01 中華電信股份有限公司 具差分隱私保護之資料合成系統、方法及其電腦可讀媒介

Also Published As

Publication number Publication date
US20230060864A1 (en) 2023-03-02
TWI702505B (zh) 2020-08-21
CN117724679A (zh) 2024-03-19
TWI840155B (zh) 2024-04-21
TW201937389A (zh) 2019-09-16
CN110221809A (zh) 2019-09-10
US20190272388A1 (en) 2019-09-05
TWI799722B (zh) 2023-04-21
US11514189B2 (en) 2022-11-29
TW202328939A (zh) 2023-07-16
CN110221809B (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
TWI702505B (zh) 收集與分析資料的方法與相關的裝置
Shin et al. Privacy enhanced matrix factorization for recommendation with local differential privacy
Zhou et al. A novel image encryption cryptosystem based on true random numbers and chaotic systems
Yang et al. Quantum Hash function and its application to privacy amplification in quantum key distribution, pseudo-random number generation and image encryption
Corrigan-Gibbs et al. Prio: Private, robust, and scalable computation of aggregate statistics
Chen et al. Pseudorandom Number Generator Based on Three Kinds of Four‐Wing Memristive Hyperchaotic System and Its Application in Image Encryption
Yu et al. Chaos‐Based Engineering Applications with a 6D Memristive Multistable Hyperchaotic System and a 2D SF‐SIMM Hyperchaotic Map
Rostami et al. Quo vadis, PUF?: Trends and challenges of emerging physical-disorder based security
Liu et al. Image compression and encryption algorithm based on compressive sensing and nonlinear diffusion
Gong et al. Homomorphic evaluation of the integer arithmetic operations for mobile edge computing
Jiang et al. Image encryption algorithm for crowd data based on a new hyperchaotic system and Bernstein polynomial
Chatterjee et al. Theory and application of delay constraints in arbiter PUF
Krawec Quantum sampling and entropic uncertainty
Chen et al. A novel image encryption scheme based on PWLCM and standard map
Akter et al. Edge intelligence-based privacy protection framework for iot-based smart healthcare systems
Piao et al. Privacy protection in government data sharing: An improved LDP-based approach
Bun et al. Separating computational and statistical differential privacy in the client-server model
Lin et al. Constructing a non-degeneracy 3D hyperchaotic map and application in image encryption
Shi et al. Comment on “Secure quantum private information retrieval using phase-encoded queries”
Lai et al. Index-based simultaneous permutation-diffusion in image encryption using two-dimensional price map
Sun et al. Differentially private AUC computation in vertical federated learning
Yuan et al. Application of Blockchain Based on Fabric Consensus Network Model in Secure Encryption of Educational Information
Kong et al. Robust Quantum Secure Multiparty Computation Protocols for Minimum Value Calculation in Collective Noises and Their Simulation
Tsou et al. SPARR: Spintronics-based private aggregatable randomized response for crowdsourced data collection and analysis
Kamran et al. A highly secured image encryption scheme using quantum walk and chaos