TWI724896B - 基於隱私保護的關係網路構建方法及裝置 - Google Patents

基於隱私保護的關係網路構建方法及裝置 Download PDF

Info

Publication number
TWI724896B
TWI724896B TW109115721A TW109115721A TWI724896B TW I724896 B TWI724896 B TW I724896B TW 109115721 A TW109115721 A TW 109115721A TW 109115721 A TW109115721 A TW 109115721A TW I724896 B TWI724896 B TW I724896B
Authority
TW
Taiwan
Prior art keywords
composite
node
nodes
candidate
relationship network
Prior art date
Application number
TW109115721A
Other languages
English (en)
Other versions
TW202123118A (zh
Inventor
張屹綮
肖凱
王維強
Original Assignee
大陸商支付寶(杭州)信息技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商支付寶(杭州)信息技術有限公司 filed Critical 大陸商支付寶(杭州)信息技術有限公司
Application granted granted Critical
Publication of TWI724896B publication Critical patent/TWI724896B/zh
Publication of TW202123118A publication Critical patent/TW202123118A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本說明書實施例提供了基於隱私保護的關係網路構建方法和裝置,可以利用在提供使用者關係網路時,將使用者關係預先進行聚合,添加雜訊,形成滿足差分隱私的關係網路,從而在有效保護使用者關係隱私的基礎上,減少資料處理量,提高使用者關係網路的有效性。進一步地,基於隱私保護的關係網路用於使用者團體發掘時,不局限於特定的資料持有方,任意有計算能力的資料處理方都可以透過團體識別模型識別關係網路中的候選複合節點,並經由初始關係網路的資料持有方查詢出使用者團體中包含的使用者ID,以提供給相應業務方,如此,可以在保證資料安全的基礎上增加團體識別的便利性。

Description

基於隱私保護的關係網路構建方法及裝置
本說明書一個或多個實施例涉及電腦技術領域,尤其涉及基於隱私保護的關係網路構建方法及裝置。
隨著大數據化的發展趨勢,關係網路的應用越來越廣泛。關係網路往往用於描述多個實體之間的關聯關係。例如,將使用者作為實體,關係網路中的每個節點對應有個使用者,節點之間的邊對應使用者之間的連接關係,可以描述出一個人際關係網路。關係網路應用過程中,可能涉及一些團體活動資料,例如,透過人際關係網路輸出具有聚集性的帳戶資料,作為打擊批量攻擊和有組織的黑產攻擊的有效手段。這種團體活動資料如果涉及諸如好友資料、轉帳資料、同設備環境運算元據等具有使用者隱私的關係資料,那麼使用者隱私的關係資料就非常容易被反解析甚至洩露。
本說明書一個或多個實施例描述的基於隱私保護的關係網路構建方法及裝置,可以用於解決背景技術部分提到的一個或多個問題。 根據第一態樣,提供了一種基於隱私保護的關係網路構建方法,其中,其中,基於隱私保護的關係網路透過多個複合節點構成,所述多個複合節點之間透過連接邊描述關聯關係,單個複合節點對應候選關係網路中的多個原始節點,各個原始節點分別對應各個使用者,原始節點之間的連接邊描述相應使用者之間的關聯關係;所述方法包括: 獲取所述候選關係網路; 將所述候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點,其中,單個複合節點對應的原始節點數量不超過所述複合節點容量; 針對所述多個複合節點,檢測兩兩之間是否存在連接邊; 基於檢測結果,利用差分隱私方式對所述多個複合節點添加邊和權重,從而構建基於隱私保護的關係網路。 在一個實施例中,所述候選關係網路透過以下方式獲取: 獲取基於第三業務方提供的多個候選使用者的使用者標識; 基於所述使用者標識,從初始關係網路中篩選出所述多個候選使用者對應的原始節點,及其預定階數內的鄰居節點,作為候選節點; 將所述候選節點構成的關係網路,作為候選關係網路。 在一個實施例中,所述將所述候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點包括: 判定所述候選關係網路中的原始節點數量; 根據所述原始節點數量和所述複合節點容量,判定第一數量,所述第一數量為,在各個複合節點對應的原始節點數量與所述複合節點容量相等的情況下,最多可以劃分的複合節點數量; 從所述候選關係網路中的原始節點中,隨機選取所述第一數量的原始節點,作為各個複合節點的基準節點; 對各個基準節點,分別從所述候選關係網路中判定第二數量的原始節點,和相應基準節點一起作為相應的複合節點,所述第二數量比所述第一數量小1個單位。 在一個實施例中,所述多個複合節點包括第一複合節點和第二複合節點,所述第一複合節點對應有第一原始節點,所述第二複合節點對應有第二原始節點,所述針對所述多個複合節點,檢測兩兩之間是否存在連接邊包括: 在所述第一原始節點和所述第二原始節點之間存在連接邊的情況下,判定所述第一複合節點和所述第二複合節點之間存在連接邊。 在一個實施例中,所述檢測結果包括,各個複合節點之間的連接邊集合,以及所述連接邊集合中的連接邊數量,所述基於檢測結果,利用差分隱私方式對所述多個複合節點添加邊和權重包括: 對所述連接邊數量添加在第一隱私代價下的雜訊。 在一個實施例中,所述在第一隱私代價下的雜訊滿足縮放參數為所述第一隱私代價的倒數的拉普拉斯分佈。 在一個實施例中,所述在第一隱私代價下的雜訊為,透過預定的隨機演算法產生第一隨機值,在拉普拉斯分佈的引數為所述第一隨機值時,拉普拉斯分佈的因變數值。 在一個實施例中,所述基於檢測結果,利用差分隱私方式對所述多個複合節點添加邊和權重還包括: 從所述連接邊集合中選擇第三數量的連接邊; 為各個複合節點構造第四數量的雜訊連接邊,所述雜訊連接邊是所述連接邊集合之外的連接邊。 在一個實施例中,對所述連接邊數量添加在第一隱私代價下的雜訊後得到第五數量,各個複合節點之間的最大連接邊數量為第六數量,所述第三數量和所述第四數量的比值,與所述第五數量與所述第六數量的比值一致。 在一個實施例中,所述連接邊集合中包括第一連接邊,所述連接邊集合中的連接邊分別對應有給定一致的初始權重,所述從所述連接邊集合中選擇第三數量的連接邊包括: 對於所述第一連接邊,在給定的初始權重上,添加符合基於第二隱私代價的累積概率滿足雙邊幾何分佈的雜訊,得到相應的第一雜訊權重,所述第二隱私代價是預定的整體隱私代價與所述第一隱私代價的差; 在所述第一雜訊權重大於第一權重臨限值的情況下,選擇所述第一連接邊作為基於隱私保護的關係網路中的連接邊,並將所述第一雜訊權重作為所述第一連接邊的權重。 在一個實施例中,所述給定的初始權重為1,並且,透過以下方式為所述第一連接邊添加雜訊: 透過預定的隨機演算法為集合雙邊分佈產生預定區間內的隨機值; 判定雙邊幾何分佈的引數在得到所述隨機值的情況下引數的取值; 為所述第一連接邊添加雜訊後的權重為所述初始權重與所述引數的取值的和。 在一個實施例中,所述第一權重臨限值是對所述連接邊集合中的各個連接邊,按照所述第二隱私代價 下的高通濾波器進行單邊濾波情況下,得到第一比例的連接邊的引數臨限值,其中,所述第一比例是以下第一項與第二項的比值: 所述第一項為基於對所述連接邊數量添加在第一隱私代價下的雜訊後得到的第五數量; 所述第二項為各個複合節點之間的最大連接邊數量。 在一個實施例中,所述第四數量是按照第二隱私代價下的高通濾波器的過濾比例判定的,所述第二隱私代價是預定的整體隱私代價與所述第一隱私代價的差,所述第四數量與以下項的差的比值與所述第二隱私代價下的高通濾波器的過濾比例一致:各個複合節點之間的最大連接邊數量、基於對所述連接邊數量添加在第一隱私代價下的雜訊後得到的連接邊數量。 在一個實施例中,所述多個複合節點包括第三複合節點和第四複合節點,所述第三複合節點和所述第四複合節點之間不存在所述連接邊集合中的連接邊相連,所述為各個複合節點構造第四數量的雜訊連接邊包括: 為所述第三複合節點和所述第四複合節點添加初始權重為0的第二連接邊; 為所述第二連接邊產生滿足在所述第二隱私代價下的累積概率滿足指數分佈的雜訊權重; 在為所述第二連接邊產生的雜訊權重大於0的情況下,將所述第二聯街邊判定為添加的連接邊,所產生的雜訊權重為所述第二連接邊的權重。 在一個實施例中,透過以下方式為所述第二連接邊產生滿足在所述第二隱私代價下的指數分佈的雜訊權重: 透過預定的隨機演算法產生一個預定概率區間的隨機值; 將在所述第二隱私代價下的指數分佈取所述隨機值的情況下,引數的取值作為為所述第二連接邊產生的雜訊權重。 根據第二態樣,提供了一種在多個候選使用者中判定使用者團體的方法,所述方法包括: 獲取利用第一態樣所述的方法為所述多個候選使用者產生的基於隱私保護的關係網路; 利用預定的團體識別模型處理基於隱私保護的關係網路,得到多個複合節點集合; 從所述多個複合節點集合中判定至少一個候選複合節點集合,以供初始關係網路的資料方按照單個候選複合節點集合中的各個候選複合節點從所述多個候選使用者中判定出相應的目標使用者團體。 在一個實施例中,所述利用預定的團體識別模型處理基於隱私保護的關係網路,得到多個複合節點集合包括: 將基於隱私保護的關係網路作為初始的當前關係網路,在初始的當前關係網路中,每個複合節點作為一個社區; 執行以下模組度最大化步驟:將每個複合節點移動到與之相鄰的複合節點所在的社區中,計算以社區為節點的當前關係網路的模組度大小,並選擇使得模組度最大的一種移動方式; 對移動後在同一個社區內的複合節點合併到同一個社區,反覆運算執行所述模組度最大化步驟,直至當前關係網路的模組度不再變化; 針對各個社區,分別產生相應的各個複合節點集合。 在一個實施例中,當前關係網路的模組度透過對各個社區的節點度求和得到,當前關係網路中第一社區的節點度為,以下第一項與第二項的差: 所述第一項為,所述第一社區中總的連接邊數量與當前關係網路中總的連接邊數的比值; 所述第二項為,聚類到所述第一社區的各個複合節點的總度數與當前關係網路中總的連接邊數的2倍的比值的平方。 在一個實施例中,所述模組度最大化步驟透過以下方式之一判定:貪心演算法、模擬退火演算法、隨機遊走演算法、統計原理演算法、標籤傳播演算法、InfoMap演算法、Louvain演算法。 在一個實施例中,所述從所述多個複合節點集合中判定至少一個候選複合節點集合包括: 將複合節點的數量大於預定數量臨限值的複合節點集合判定為候選複合節點集合; 從而使得初始關係網路的資料方透過以下方式按照單個候選複合節點集合中的各個候選複合節點從所述多個候選使用者中判定出相應的目標使用者團體: 按照預先設定的映射規則,將各個候選複合節點分別映射到初始關係網路的多個初始使用者; 從所述多個初始使用者中選擇所述多個候選使用者中的使用者,並將選擇出的使用者識別為所述單個候選複合節點集合對應的目標使用者團體。 在一個實施例中,所述方法的執行主體為初始關係網路的資料方,所述多個複合節點集合包括第一複合節點集合,所述從所述多個複合節點集合中判定至少一個候選複合節點集合包括: 按照預先設定的映射規則,將所述第一複合節點集合中的各個複合節點分別映射到初始關係網路的多個初始使用者; 檢測所述多個初始使用者中,是否存在預定數量或預定比例的初始使用者,註冊時間短於預定的時間臨限值; 若存在,則將所述第一複合節點集合判定為候選複合節點集合。 根據第三態樣,提供了一種基於隱私保護的關係網路構建裝置,其中,基於隱私保護的關係網路透過多個複合節點構成,所述多個複合節點之間透過連接邊描述關聯關係,單個複合節點對應候選關係網路中的多個原始節點,各個原始節點分別對應各個使用者,原始節點之間的連接邊描述相應使用者之間的關聯關係;所述裝置包括: 獲取單元,組態為獲取所述候選關係網路; 節點構建單元,組態為將所述候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點,其中,單個複合節點對應的原始節點數量不超過所述複合節點容量; 檢測單元,組態為針對所述多個複合節點,檢測兩兩之間是否存在連接邊; 邊構建單元,組態為基於檢測結果,利用差分隱私方式對所述多個複合節點添加邊和權重,從而構建基於隱私保護的關係網路。 根據第四態樣,提供了一種在多個候選使用者中判定使用者團體的裝置,所述裝置包括: 獲取單元,組態為獲取利用第三態樣的裝置為所述多個候選使用者產生的基於隱私保護的關係網路; 處理單元,組態為利用預定的團體識別模型處理基於隱私保護的關係網路,得到多個複合節點集合; 判定單元,組態為從所述多個複合節點集合中判定至少一個候選複合節點集合,以供初始關係網路的資料方按照單個候選複合節點集合中的各個候選複合節點從所述多個候選使用者中判定出相應的目標使用者團體。 根據第五態樣,提供了一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行上述第一態樣或第二態樣的方法。 根據第六態樣,提供了一種計算設備,包括記憶體和處理器,其特徵在於,所述記憶體中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現上述第一態樣或第二態樣的方法。 本說明書實施例提供了基於隱私保護的關係網路構建方法和裝置,可以利用在提供使用者關係網路時,將各個使用者預先聚合,添加雜訊,形成滿足差分隱私的關係網路,從而在有效保護使用者關係隱私的基礎上,減少資料處理量,提高使用者關係網路的有效性。進一步地,基於隱私保護的關係網路用於使用者團體發掘時,不局限於特定的資料持有方,任意有計算能力的資料處理方都可以透過團體識別模型識別關係網路中的候選複合節點,並經由初始關係網路的資料持有方查詢出使用者團體中包含的使用者ID,以提供給相應業務方,如此,可以在保證資料安全的基礎上增加團體識別的便利性。
下面結合圖式,對本說明書提供的方案進行描述。 首先,結合圖1、圖2示出一個具體實施場景進行說明。 圖1給出了該具體實施場景的實施架構示意圖。如圖1所示,在該實施架構中,包括業務平台、業務方和使用者。業務平台用於提供使用者交流,以及業務方和使用者之間進行業務交流互動的媒介。例如支付寶平台、微信平台,等等,可以是兼顧社交和商業服務的平台。使用者可以在業務平台註冊成為註冊使用者,各個業務方可以以子應用,或者在業務平台註冊成為註冊業務方等形式為使用者提供相關業務。 業務平台可以記錄使用者在業務平台的行為資訊(如支付行為資料、轉帳行為資料、消費行為資料等等),這些行為資訊可以用來建立關係網路。關係網路中,每個節點都可以表示一個實體(如使用者、商品、商家等等),實體之間的關聯關係透過連接邊來表示,具有直接關聯關係的實體對應的節點之間透過連接邊互相連接。如圖1所示,每個圓圈代表一個實體,一條線段代表一個連接邊。具有直接關聯關係的節點可以互為一階鄰居節點。如果兩個節點中間經過一個連接邊、一個節點、另一個連接邊的路徑相連接,則這兩個節點可以相互稱為二階鄰居節點,以此類推。通常,鄰居節點的階數,與中間間隔的最少連接邊數一致。在本說明書的實施架構下,關係網路中的實體可以是使用者。 可以理解的是,圖1中的業務方、使用者僅為示例,實踐中,分別可以是任意數量,業務平台的伺服器形式也可能是伺服器集群形式,本說明書對這些都不做限定。 請參考圖2,給出在圖1的實施架構下,一個具體實施場景示意圖。在該實施場景中,計算平台預先儲存或遠端獲取基於圖1中的業務平台記錄的使用者行為資料產生的原始關係網路,該原始關係網路中以使用者在業務平台註冊的使用者ID表示使用者。業務方a疑似遭遇批量攻擊或有組織的團夥攻擊,其可以向計算平台提供自有使用者資料中的各個使用者ID。計算平台根據業務方a提供的使用者ID從原始關係網路中抽取與這些使用者相關的關係網路,作為候選關係網路,進一步地,將候選關係網路中的多個節點進行劃分,形成複合節點,每個複合節點包括多個原始關係網路中的節點。如圖2所示,每個複合節點用圓形或橢圓形虛線框標識,複合節點之間的連接關係透過虛線描述。該複合節點可以看作一個虛擬的使用者,對應了初始關係網路中的多個使用者。在建立複合節點的關係網路中,可以透過差分隱私的方式進行,對網路結構引入雜訊,使得對引入雜訊的關係網路的處理結果與對原關係網路的處理結果一致。如此,這個關係網路在有效保護使用者之間的關係隱私資料基礎上,不僅規模得到了有效精簡,還可以提供準確的使用者聚集性關係。該關係網路可以稱為基於隱私保護的關係網路。 當該基於隱私保護的關係網路提供給任意第三方平台時,不會洩露使用者的關係隱私資料。因此,計算平台可以向第三方平台提供基於隱私保護的關係網路,由第三方平台透過預先訓練好的團體識別模型,識別關係網路中的團夥,並將識別結果回饋給業務方a。這樣,可以幫助業務方a預防和打擊攻擊行為、黑產行為等的團夥作案,排除風險。 這裡要說明的是,圖2中的計算平台可以設於圖1中的業務平台,也可以是設於負有保密職責的其他可信平台。第三方平台可以是具有一定計算能力的任意平台,其可以屬於圖2中的計算平台,也可以是獨立的他方平台,本說明書對此不做限定。 其中,圖1、圖2僅給出了本說明書實施例的一個實施架構,實踐中,圖2中的計算平台在初始的關係網路的基礎上構建基於隱私保護的關係網路的流程可以應用於任何涉及使用者關係的相關場景中,例如挖掘惡意團夥、識別潛在客戶等等,在此不再一一例舉。 下面首先詳細介紹基於隱私保護的關係網路構建的具體過程。 圖3示出根據一個實施例的基於隱私保護的關係網路構建方法流程圖。該方法的執行主體可以是任何具有計算、處理能力的系統、設備、裝置、平台或伺服器。例如圖1示出的業務平台。基於隱私保護的關係網路在候選關係網路的基礎上,將候選關係網路中的原始節點進行組合,並添加在預定隱私代價下的雜訊,透過差分隱私方式隱藏節點之間的真實連接關係。 如圖3所示,基於隱私保護的關係網路構建方法包括以下步驟:步驟301,獲取候選關係網路;步驟302,將候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點,其中,單個複合節點包括的原始節點數量不超過複合節點容量;步驟303,針對上述多個複合節點,檢測兩兩之間是否存在連接邊;步驟304,基於檢測結果,利用差分隱私方式對上述多個複合節點添加連接邊和權重,從而構建基於隱私保護的關係網路。 首先,步驟301,獲取候選關係網路。可以理解,候選關係網路是用來構建基於隱私保護的關係網路的基礎網路。 初始的關係網路往往是根據應用場景構建的、包含實體之間的關聯關係的關係網路,其包含了大量實體關係資料,例如使用者關係資料。例如圖1、圖2示出的實施場景中,初始的關係網路可以用於描述使用者關係的網路。在本說明書實施例中,初始關係網路中的節點可以稱為原始節點。初始關係網路通常包含了相關場景下,所有實體之間的關聯關係構成的網路。候選關係網路可以是初始關係網路本身,也可以是初始關係網路的一部分。 根據一個實施方式,可以透過預先給定的節點範圍,從初始關係網路中提取候選節點對應的關係網路作為候選關係網路。 在一個實施例中,候選節點可以是上述給定的節點,以圖2示出的實施場景為例,業務方a提供的使用者列表中的各個使用者。這些使用者對應的節點就可以稱作給定的節點。假如這些使用者為使用者a、使用者b至使用者z共26個使用者,這26個使用者對應的節點稱為候選節點。此時,可以從初始關係網路中提取出使用者a、使用者b至使用者z對應的節點及它們相互之間的連接關係,作為候選關係網路。舉例而言,如果使用者a和使用者b、使用者d對應的節點有連接關係,還和使用者11對應的節點有連接關係,則由於候選關係網路中不包括使用者11對應的節點,因此也不包括使用者11對應的節點和使用者a對應的節點之間的連接邊,但包括使用者a、使用者b、使用者d對應的節點,以及使用者a對應的節點分別和使用者b對應的節點、使用者d對應的節點之間的連接邊。 在另一個實施例中,候選節點可以與給定的節點相關聯的節點,例如除了給定的節點,還包括給定的節點預定階數內的鄰居節點。以圖2示出的實施場景為例,給定節點可以是業務方a提供的使用者列表中的各個使用者對應的節點,候選節點可以是給定節點以及其預定階數(如二階)內的鄰居節點,如一階鄰居節點、二階鄰居節點等。此時,候選關係網路就可以是給定的節點及其預定階數內的鄰居節點組成的關係網路,在此不再贅述。 可以理解的是,由於候選關係網路中的節點個數可能是任意數量,在一些實施例中,為了複合節點中數量的均衡,在可選的實施例中,還可以對候選節點對應的關係網路進一步篩選後作為候選關係網路,詳細過程在步驟302中描述。 由於候選關係網路是初始關係網路或者從初始關係網路中提取的部分網路,節點本身還是作為獨立節點存在,也就是說節點沒有變化,因此,還可以稱為原始節點,僅僅是在候選關係網路中,一些原始節點的屬性發生了變化,例如,連接邊數(或鄰居節點個數)減少。 步驟302,將候選關係網路中的節點按照預設的複合節點容量,劃分出多個複合節點。其中,每個複合節點所包括的原始節點數量不超過上述複合節點容量。複合節點容量可以是根據經驗或候選關係網路的規模(包含節點數)預設的數值,例如5、8、10等。一個複合節點對應的原始節點的數量不超過複合節點容量。通常,一個複合節點對應的原始節點的數量可以與複合節點容量一致。 在一個實施例中,可以根據複合節點容量(以下記為k)來判定複合節點的數量。例如,複合節點的數量可以為候選關係網路中的節點數量與複合節點容量k的比值的整數部分。在可選的實現方式中,複合節點的數量還可以為上述整數部分減去1。如此,可以使得在後續的差分隱私處理中,有一定的誤差空間,從而可以在保證使用者關係準確度的基礎上維護關係隱私。 在可選的實現方式中,可以在判定複合節點數量之後,對候選關係網路進行隨機過濾,使得候選關係網路中的節點數量,與複合節點的數量和複合節點容量k的乘積一致,或者與複合節點的數量加1後的數值與複合節點容量k的乘積一致的節點數,具體和複合節點的數量的判定方法相關。這樣,相當於過濾掉了原候選關係網路與複合節點容量的餘數部分的節點,和步驟301中描述的節點篩選對應。換句話說,篩選後的候選關係網路中的節點數,是原候選關係網路中的節點數減去原候選關係網路中的節點數除以複合節點容量k的餘數後的數值。也就是說,根據候選關係網路中的原始節點數量和複合節點容量判定複合節點數量,再根據複合節點數量對候選關係網路中的原始節點進行篩選。如此,可以使得候選關係網路中的原始節點被均勻分配到各個複合節點,即每個複合節點均對應有k個原始節點,並據此判定複合節點的數量。 判定了複合節點的數量之後,可以針對候選關係網路中的各個原始節點劃分複合節點。在各個複合節點對應的原始節點數量與複合節點容量相等的情況下,可以劃分的符合節點數量可以記為第一數量。在一個實施例中,可以從候選關係網路中隨機選擇出第一數量的原始節點,作為各個複合節點的基準節點(類似“種子”的作用)。然後,按照複合節點容量k,將距離基準節點由近到遠的k-1個(第二數量)節點加入到相應的複合節點。這裡,距離可以理解為連接路徑上的連接邊數,例如基準節點和其一階鄰居節點之間的距離為1。可選地,遍歷各個基準節點,檢測距離由近到遠的原始節點時,可以排除已經加入到其他複合節點的原始節點。 這樣,由原始節點構成的候選關係網路,就變成了多個複合節點構成的集合。為了使得多個複合節點形成關係網路,進一步地,可以透過步驟303,針對多個複合節點,檢測兩兩之間是否存在連接邊。 首先,可以檢測兩兩複合節點的原始節點之間是否存在連接邊。如果存在連接邊,則判定兩個複合節點之間存在連接邊。為了更清楚地進行描述,假設第一複合節點包括原始節點A、B、C、D、E,第二複合節點包括原始節點F、G、H、I、J,如果原始節點A、B、C、D、E中的任一節點(如節點C,也可以稱為第一原始節點)和原始節點F、G、H、I、J任一節點(如節點H,可以稱為第二原始節點)之間有連接邊,則可以判定第一複合節點和第二複合節點之間有連接邊。如果第一複合節點中沒有一個原始節點和第二複合節點中的任意原始節點之間有連接邊,則第一複合節點和第二複合節點之間沒有連接邊。 根據一個實施例,根據步驟303的檢測結果,可以判定一個連接邊集合,用於儲存檢測到的連接邊。可選地,檢測結果中還可以包括連接邊集合中的連接邊數量。 步驟304,基於檢測結果,利用差分隱私方式對多個複合節點添加連接邊和權重,從而構建基於隱私保護的關係網路。可以理解,利用關係網路進行業務處理時,往往還需要考慮節點之間的關聯程度,該關聯程度可以用連接邊的權重來描述。 差分隱私(differential privacy)是密碼學中的一種手段,旨在提供一種當從統計資料庫查詢時,最大化資料查詢的準確性,同時最大限度減少識別其記錄的機會。設有隨機演算法M,PM為M所有可能的輸出構成的集合。對於任意兩個鄰近資料集D和D’以及PM的任何子集SM,若隨機演算法M滿足:Pr[M(D)∈SM]<=e ε×Pr[M(D’)∈SM],則稱演算法M提供ε-差分隱私保護,其中參數ε稱為隱私保護預算,用於平衡隱私保護程度和準確度。ε通常可以預先設定。ε越接近0,e ε越接近1,隨機演算法對兩個鄰近資料集D和D’的處理結果越接近,隱私保護程度越強。 差分隱私方法可以以添加受控雜訊實現降低查詢結果的靈敏度。差分隱私方法通常用於查詢領域,在本說明書的實施架構下,設想利用差分隱私的方式產生基於隱私保護的關係網路。 本領域技術人員可以理解,差分隱私通常具有可組合性。兩個隱私因數分別為ε 1和ε 2的差分隱私組合結果,其隱私因數為ε 12。用ε表示整體的差分隱私代價,則ε=ε 12。ε越大,隱私保護強度越低,因此,可以預先設定ε的最大值,作為最大隱私代價,例如ε設為1。 容易理解的是,差分隱私方法的目的是在隱私和準確度之間進行平衡,即,在保護隱私的基礎上,兼顧準確度。為連接邊添加雜訊的目的,是為了使得隨機演算法處理添加雜訊後的關係網路與處理原雜訊網路得到相同的結果,從而達到保護隱私的目的。為了產生基於隱私保護的關係網路,可以從步驟303中檢測到的連接邊中選擇一部分連接邊,並在不存在連接邊的複合節點之間添加一定數量的連接邊。 在本說明書的一個可能設計中下,可以考慮連接邊的滿足第一隱私因數ε 2差分隱私和連接邊權重滿足第二隱私因數ε 1的差分隱私。在差分隱私方式中,隱私因數越小,個體對整體結果的影響越小,隱私保護越好,但準確度會越低,因此,隱私因數ε 2可以根據經驗預先設定。可選地,第一隱私因數ε 2可以與複合節點總數量正相關,例如,複合節點的數量n 1為1000,可以將ε 2設為0.01。當整體的隱私因數ε和第一隱私因數ε 2被設定時,第二隱私因數ε 1可以由ε-ε 2判定。 基於以上理論,首先對連接邊進行差分隱私處理。複合節點之間的連接邊集合可以記為E 1,連接邊數量可以記為|E 1|。為了確保基於隱私保護的關係網路的準確性,可以對|E 1|添加雜訊,從而增加連接邊集合中的連接邊的選擇比例(原理下文詳細描述)。 在可選的實現方式中,可以透過拉普拉斯機制(Laplace)進行連接邊數量的差分隱私。也就是說,為連接邊集合中的連接邊數量增加拉普拉斯雜訊。符合拉普拉斯分佈的雜訊,其可以用概率密度函數:noise(y)∝e -|y|/λ表示,其均值為0,標準差是
Figure 02_image001
。拉普拉斯機制是適用於連續資料的噪音機制。對於給定資料集D,差分隱私保護概念中的隨機演算法M(D)=f(D)+Y,演算法M提供ε-差分隱私保護的情況下,Y服從參數為敏感度/ε的Laplace分佈,即Lap(敏感度/ε)。其中,靈敏度用於表示至少改變資料集中的多少個數,會對輸出結果產生影響。例如在由使用者的關係資料構成的關係網路中,靈敏度可以為1,滿足的ε 2-差分隱私的Laplace分佈可以記為Lap(1/ε 2)。假設拉普拉斯分佈雜訊的表達為:
Figure 02_image003
將連接邊的拉普拉斯雜訊的第一隱私因數ε 2、敏感度1代入,則Y為p取1/ε 2時的拉普拉斯分佈。根據隨機演算法M(D)=f(D)+Y可知,隨機演算法針對的資料集為複合節點之間真實存在的連接邊的集合E 1時,f(D)表示邊的數量,f(D)=|E 1|,可以使得添加拉普拉斯雜訊後的連接邊數量為:m 1=|E 1|+P(1/ε 2)。其中,使用預先選定的隨機演算法為
Figure 02_image005
產生一個隨機值(可以稱為第一隨機值),在
Figure 02_image007
取該隨機值時,拉普拉斯函數
Figure 02_image009
的值就是P(1/ε 2)。P(1/ε 2)可以看作增加的雜訊邊數量。在對連接邊添加雜訊後,還可以進一步根據添加雜訊後的連接邊數量選擇和添加複合節點之間的連接邊。在一個可能的實施例中,假設從步驟303中檢測到的連接邊中選擇第三數量的連接邊,為各個複合節點構造的雜訊連接邊(檢測結果中不存在的連接邊)數量為第四數量,對連接邊數量添加在第一隱私代價下的雜訊後得到連接邊的數量為第五數量,各個複合節點之間的最大連接邊數量為第六數量,則第三數量和第四數量的比值,與第五數量和以下數量的比值一致:第六數量與第五數量的差。由於第三數量對應的第五數量在本來檢測到的連接邊數量上添加了雜訊數量,因此可以增加從檢測到的連接邊中選擇的連接邊的比例。 假設複合節點的數量為n 1,則考慮指向複合節點自身的連接,最大連接邊數量為m 0=n 1(n 1-1)/2。也就是說,上文可選實施例中的第六數量m 0可以基於複合節點的數量n 1判定。第五數量為前述的m 1=|E 1|+P(1/ε 2)。第三數量與第四數量的比值為:
Figure 02_image011
下面詳細介紹選擇第三數量和添加第四數量的連接邊的過程。 一方面,從E 1中選擇第三數量的連接邊,通常,可以將權重較大的連接邊保留,權重較小的連接邊刪除。 根據一個實施方式,可以對於步驟303中檢測到的任意一個連接邊(如集合E 1中的連接邊),記作第一連接邊,對於第一連接邊,在給定的初始權重上,添加符合基於第二隱私代價的雙邊幾何分佈的雜訊,得到相應的第一雜訊權重,在第一雜訊權重大於第一權重臨限值的情況下,選擇第一連接邊作為基於隱私保護的關係網路中的連接邊,並將第一雜訊權重作為第一連接邊的權重。其中第二隱私代價ε 1是預定的整體隱私代價ε與第一隱私代價ε 2的差。 作為示例,在第二隱私代價
Figure 02_image013
下,令
Figure 02_image015
則雜訊
Figure 02_image017
的累積概率值滿足雙邊幾何分佈:
Figure 02_image019
其中,取到所有
Figure 02_image017
的總概率為1,也就是說,
Figure 02_image021
在0-1之間取值,可以由隨機抽樣判定。當判定一個累計概率值
Figure 02_image023
時,可以唯一對應到一個
Figure 02_image017
。透過隨機產生的概率值,可以判定相應的雜訊
Figure 02_image017
。 對於檢測到的連接邊集合E 1中的連接邊e 1,令其權重的初始值W 0為1或0,其中,1表示初始狀態真實存在一條連接邊,否則為0,則e 1的初始權重為1。添加雜訊後,其添加雜訊後的權重表示為1+
Figure 02_image025
。 如果連接邊e 1滿足ε 1-差分隱私,則其添加雜訊後的權重應足夠大,以與原始關係網路中的節點關係區分開。為了使得權重足夠大,可以將添加雜訊後的權重1+
Figure 02_image027
與第一權重臨限值θ進行比較。也就是說,為W 0添加雜訊
Figure 02_image025
,得到權重We 1,則有:We 1≥θ滿足時,相應連接邊e 1滿足ε 1-差分隱私。此時,可以將e 1判定為差分隱私下的關係網路中,複合節點之間的連接邊。其中,連接邊e 1的權重為We 1。可以理解,該權重是添加雜訊後的權重,因此,可以保證使用者關係隱私。 其中,第一權重臨限值θ可以根據臨限值設定,也可以透過諸如高通濾波的方式判定。以高通濾波的方式為例,根據高通濾波原理,假設第一權重臨限值為θ,用
Figure 02_image029
表示E 1中的第i個連接邊的權重,令
Figure 02_image015
則:
Figure 02_image031
在本說明書實施例中,適應單邊濾波情形(排除負值雜訊),即:
Figure 02_image033
從而:
Figure 02_image035
可選地,
Figure 02_image037
採用計算結果的上取整形式:
Figure 02_image039
其中,當計算結果為小數時,
Figure 02_image037
的值為計算結果的整數部分加1。這是因為,
Figure 02_image037
作為添加雜訊的下限權重臨限值,
Figure 02_image037
的值較大時,可以保證雜訊足夠大,有利於維護使用者關係隱私。 根據第一權重臨限值
Figure 02_image037
,就可以
Figure 02_image041
根據添加雜訊後的連接邊的權重與
Figure 02_image037
的比較,從步驟303中檢測到的連接邊中選擇第三數量的連接邊。 另一方面,需要在步驟303檢測到的連接邊(如集合E 1中的連接邊)之外,增加第四數量的連接邊,作為基於隱私保護的關係網路中複合節點間的連接邊。這些連接邊是在添加連接邊過程中暫時假設的連接邊,也可以將其看作“權重為0的連接邊”,如果滿足條件,則被添加為基於隱私保護的關係網路中的連接邊,否則,仍然視為不存在連接邊。 根據一個可能的實施例,可以從上述各個“權重為0的連接邊”隨機選擇出第四數量(如記為s個)連接邊作為基於隱私保護的關係網路中的連接邊,並為其隨機產生預定取值範圍(如0-1之間)的權重。其中,隨機產生的權重可以大於預定臨限值,如大於0.3等等。然後,按照產生的權重從大到小的順序選擇第四數量的連接邊,各個連接邊的權重為所產生的權重。 在可選的實現方式中,可以按照二項分佈雜訊為各個“權重為0的連接邊”產生權重,並按照高通濾波器的原理選擇s個連接邊。 根據前述類似的高通濾波原理,在單邊濾波的情況下:
Figure 02_image043
於是:
Figure 02_image045
也就是說,第四數量s可以透過第五數量
Figure 02_image047
、第六數量
Figure 02_image049
及前述的第一權重臨限值
Figure 02_image051
、第二隱私代價ε 1判定。其中,各個初始權重為0的連接邊產生的雜訊權重滿足指數分佈:
Figure 02_image053
這是因為,用
Figure 02_image029
表示第i個連接邊的權重的情況下,透過高通濾波器需滿足以下條件:
Figure 02_image055
進一步地,對於所有概率大於
Figure 02_image051
的連接邊,累計概率分佈為:
Figure 02_image057
因此,如果產生一個0-1之間的隨機值作為累計概率
Figure 02_image059
,那麼可以唯一對應到一個引數x的值,該引數x的值也就是隨機賦予當前連接邊的雜訊權重
Figure 02_image061
。 可以理解,由於x的值可能為正也可能為負,而在本說明書實施例中,只有權重為正的連接邊才有意義,因此,如果所產生的權重
Figure 02_image061
≥0,那麼可以將相應的連接邊作為一條雜訊邊,相應的權重對應雜訊邊的雜訊權重。如此,直至判定出s條雜訊邊。 以上過程中,邊數量雜訊滿足拉普拉斯分佈的情況下,任意隨機演算法對真實存在的連接邊數量為|E 1|的關係網路的處理結果,小於等於
Figure 02_image063
與該任意隨機演算法對連接邊數量為:m 1=|E 1|+P(1/ε 2)的關係網路的處理結果,所以滿足ε 2-差分隱私。對於連接邊的權重,添加雙邊幾何分佈雜訊或指數分佈雜訊,使得任意隨機演算法對包括連接邊集合E 1的關係網路的處理結果,小於等於
Figure 02_image065
與該任意隨機演算法對透過添加邊數量雜訊以及權重雜訊的關係網路的處理結果,所以滿足ε 1-差分隱私。 如此,對已有連接邊的數量進行基於第一隱私因數ε 2的差分隱私處理,同時,在選擇連接邊時,對連接邊權重進行基於第二隱私因數ε 1的差分隱私處理,從而可以產生滿足ε-差分隱私的關係網路,其中ε=ε 21。 對於滿足ε-差分隱私的關係網路,不僅簡化了關係網路結構,而且加入了雜訊,掩蓋了原有的使用者關係,因此,可以在保護使用者隱私的情況下,挖掘使用者之間的關係。例如,圖1示出的實施場景中,根據商家提供的使用者ID,發掘使用者之間的團夥關係。基於隱私保護的關係網路,即使被提供給第三方平台,也不會洩露使用者的關係隱私。 圖4示出利用基於隱私保護的關係網路在多個候選使用者中判定使用者團體的方法。該方法可以由與圖3所示的方法一致的執行主體執行,也可以由其他執行主體(例如圖1中提供使用者ID的商家)執行,在此不作限定。 圖4示出的在多個候選使用者中判定使用者團體的方法包括以下步驟:步驟401,獲取為多個候選使用者產生的基於隱私保護的關係網路;步驟402,利用預定的團體識別模型處理基於隱私保護的關係網路,得到多個複合節點集合;步驟403,從多個複合節點集合中判定至少一個候選複合節點集合,以供初始關係網路的資料方按照單個候選複合節點集合中的各個候選複合節點從多個候選使用者中判定出目標使用者團體。 首先,在步驟401中,獲取為多個候選使用者產生的基於隱私保護的關係網路。可以理解,這裡的候選使用者可以由相應業務方提供。相應業務方例如是消費平台的業務提供方(如商家)。相應業務方提供的多個使用者ID可以是其在某個業務平台的相對業務方(如消費者)在該業務平台的註冊ID。每個使用者ID對應一個候選使用者。該業務平台作為初始關係網路的資料方,可以預先產生初始的使用者關係網路。 初始關係網路的資料方可以根據這些候選使用者從初始的關係網路中判定候選關係網路,並將候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點,針對多個複合節點,檢測兩兩之間是否存在連接邊,基於檢測結果,利用差分隱私方式對上述多個複合節點添加連接邊和權重,從而構建基於隱私保護的關係網路。可選地,候選關係網路中可以包括相應業務方提供的使用者及其在初始關係網路中的預定階數內的鄰居節點。該過程已在圖3示出的實施例中描述,在此不再贅述。 當圖4示出的流程的執行主體與初始關係網路的資料方一致時,基於隱私保護的關係網路可以從本地獲取。 然後,在步驟402中,利用預定的團體識別模型處理基於隱私保護的關係網路,得到多個複合節點集合。其中,預定的團體識別模型例如是Louvian演算法、最大連通圖等等。 以Louvian演算法為例,可以將基於隱私保護的關係網路中的每個複合節點作為一個社區,然後將每個複合節點移動到與之相鄰的複合節點的社區中,計算整個關係網路的模組度大小,並選擇使得模組度最大的一種移動方式。接著,將移動後在同一個社區內的複合節點組合成一個新的社區,重複以上步驟,直到模組度不再增大為止。每個社區可以看作一個複合節點集合。 根據一個實施方式,模組度可以透過以下方式判定:
Figure 02_image067
其中n c是當前關係網路中社區的個數,初始時為基於隱私保護的關係網路中社區的個數,
Figure 02_image069
是社區c中總連接邊數,
Figure 02_image071
是社區c聚類到的各個複合節點的總度數,m是當前關係網路中總的連接邊數,初始時為基於隱私保護的關係網路中總的連接邊數。模組度優化演算法可以採用諸如貪心演算法(Newmann演算法)、模擬退火演算法、隨機遊走演算法、統計原理演算法、標籤傳播演算法、InfoMap演算法、Louvain演算法之類的演算法實現。 之後,在步驟403,從多個複合節點集合中判定至少一個候選複合節點集合。如此,如果將這至少一個候選複合節點集合提供給初始關係網路的資料方,可以使得初始關係網路的資料方按照單個候選複合節點集合中的各個候選複合節點從多個候選使用者中判定出相應的目標使用者團體。 根據一個可能的設計,可以將複合節點的數量大於預定數量臨限值(如10個)的複合節點集合判定為候選複合節點集合。這樣,可以使得初始關係網路的資料方透過以下方式按照單個候選複合節點集合中的各個候選複合節點從多個候選使用者中判定出相應的目標使用者團體: 按照預先設定的映射規則,將各個候選複合節點分別映射到初始關係網路的多個初始使用者;從得到的多個初始使用者中選擇多個候選使用者中的使用者,並將選擇出的使用者識別為單個候選複合節點集合對應的目標使用者團體。也就是說,查找到原始使用者後,過濾掉非候選使用者,剩下的使用者構成目標使用者團體。可選地,初始關係網路的產生方在產生基於隱私保護的關係網路時,可以記錄複合節點與原始節點的對應關係。這裡的映射規則就可以是這裡的對應關係。 根據另一個可能的設計,圖4示出的方法的執行主體為初始關係網路的資料方。此時,該執行主體可以按照前述可能設計中的方法判定候選複合節點集合,還可以透過其他方法判定候選複合節點集合。 例如,假設步驟402得到的多個複合節點集合包括第一複合節點集合,上述執行主體可以先按照預先設定的映射規則,將第一複合節點集合中的各個複合節點分別映射到初始關係網路的多個初始使用者,然後,檢測多個初始使用者中,是否存在預定數量(如20個)或預定比例(如60%)的初始使用者,註冊時間短於預定的時間臨限值(如1個月),若存在,則將第一複合節點集合判定為候選複合節點集合。否則,可以判定第一複合節點集合不是候選複合節點集合。 可以理解,由於步驟401中使用的基於隱私保護的關係網路,在相應業務方提供的多個使用者ID基礎上可能進行擴充和/或添加雜訊,因此,候選使用者ID中可能包含不在相應業務方提供的使用者ID中的其他使用者ID,透過對比從候選使用者ID中篩除這些使用者ID之後,剩餘的候選使用者ID可以被識別為使用者團體。 候選複合節點集合中對應的目標使用者團體,可以被提供給相應業務方。這裡的使用者團體可能是進行批量攻擊或有組織的團夥的各個使用者ID,相應業務方獲取相應使用者團體資訊之後,可以進行相應的防禦或追責處理。可選地,目標使用者團體可能只有一個,也可能有多個,用於為相應業務方提供參考。 回顧以上過程,本說明書實施例所提供的基於隱私保護的關係網路構建方法,可以利用在提供使用者關係網路時,將各個使用者預先聚合,添加雜訊,形成滿足差分隱私的關係網路,從而在有效保護使用者關係隱私的基礎上,減少資料處理量,提高使用者關係網路的有效性。進一步地,基於隱私保護的關係網路用於使用者團體發掘時,不局限於特定的資料持有方,任意有計算能力的資料處理方都可以透過團體識別模型識別關係網路中的候選複合節點,並經由初始關係網路的資料持有方查詢出使用者團體中包含的使用者ID,以提供給相應業務方,如此,可以在保證資料安全的基礎上增加團體識別的便利性。 根據另一方面的實施例,還提供一種基於隱私保護的關係網路構建裝置。其中,基於隱私保護的關係網路透過多個複合節點構成,多個複合節點之間透過連接邊描述關聯關係,單個複合節點對應候選關係網路中的多個原始節點,各個原始節點分別對應各個使用者,原始節點之間的連接邊描述相應使用者之間的關聯關係。圖5示出根據一個實施例的基於隱私保護的關係網路構建裝置的示意性方塊圖。如圖5所示,裝置500包括: 獲取單元51,組態為獲取候選關係網路; 節點構建單元52,組態為將候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點,其中,單個複合節點對應的原始節點數量不超過複合節點容量; 檢測單元53,組態為針對多個複合節點,檢測兩兩之間是否存在連接邊; 邊構建單元54,組態為基於檢測結果,利用差分隱私方式對多個複合節點添加邊和權重,從而構建基於隱私保護的關係網路。 值得說明的是,以上對圖5所示的基於隱私保護的關係網路構建裝置500,與圖3示出的方法實施例相對應,圖3對應的方法實施例中的相應描述也適用於圖5所示的基於隱私保護的關係網路構建裝置,在此不再贅述。 根據另一方面的實施例,還提供一種在多個候選使用者中判定使用者團體的裝置。圖6示出了在多個候選使用者中判定使用者團體的裝置600。裝置600至少包括: 獲取單元61,組態為獲取利用裝置500為多個候選使用者產生的基於隱私保護的關係網路; 處理單元62,組態為利用預定的團體識別模型處理基於隱私保護的關係網路,得到多個複合節點集合; 判定單元63,組態為從上述多個複合節點集合中判定至少一個候選複合節點集合,以供初始關係網路的資料方按照單個候選複合節點集合中的各個候選複合節點從多個候選使用者中判定出相應的目標使用者團體。 值得說明的是,以上對圖6所示的在多個候選使用者中判定使用者團體的裝置600,與圖4示出的方法實施例相對應,圖4對應的方法實施例中的相應描述也適用於圖6所示的在多個候選使用者中判定使用者團體的裝置,在此不再贅述。 根據另一方面的實施例,還提供一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行相應描述的方法。 根據再一方面的實施例,還提供一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現相應描述的方法。 本領域技術人員應該可以意識到,在上述一個或多個示例中,本說明書實施例所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時,可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼進行傳輸。 以上所述的具體實施方式,對本說明書的技術構思的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本說明書的技術構思的具體實施方式而已,並不用於限定本說明書的技術構思的保護範圍,凡在本說明書的技術構思的技術方案的基礎之上,所做的任何修改、等同替換、改進等,均應包括在本說明書的技術構思的保護範圍之內。
51:獲取單元
52:節點構建單元
53:檢測單元
54:邊構建單元
61:獲取單元
62:處理單元
63:判定單元
301,302,303,304,401,402,403:步驟
500,600:裝置
為了更清楚地說明本發明實施例的技術方案,下面將對實施例描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其它的圖式。 [圖1]示出本說明書實施例的一個實施架構示意圖; [圖2]示出本說明書實施例的一個實施場景示意圖; [圖3]示出根據一個實施例的基於隱私保護的關係網路構建流程示意圖; [圖4]示出根據一個實施例的在多個候選使用者中判定使用者團體的流程示意圖; [圖5]示出根據一個實施例的基於隱私保護的關係網路構建裝置示意圖; [圖6]示出根據一個實施例的在多個候選使用者中判定使用者團體的裝置的示意性方塊圖。

Claims (24)

  1. 一種基於隱私保護的關係網路構建方法,其中,基於隱私保護的關係網路透過多個複合節點構成,所述多個複合節點之間透過連接邊描述關聯關係,單個複合節點對應候選關係網路中的多個原始節點,各個原始節點分別對應各個使用者,原始節點之間的連接邊描述相應使用者之間的關聯關係;所述方法包括:獲取所述候選關係網路;將所述候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點,其中,單個複合節點對應的原始節點數量不超過所述複合節點容量;針對所述多個複合節點,檢測兩兩之間是否存在連接邊;基於檢測結果,利用差分隱私方式對所述多個複合節點添加連接邊和權重,從而構建基於隱私保護的關係網路;其中,所述候選關係網路透過以下方式獲取:獲取基於第三業務方提供的多個候選使用者的使用者標識;基於所述使用者標識,從初始關係網路中篩選出所述多個候選使用者對應的原始節點,及其預定階數內的鄰居節點,作為候選節點;將所述候選節點構成的關係網路,作為候選關係網路。
  2. 如請求項1所述的方法,其中,所述將所述候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點包括:判定所述候選關係網路中的原始節點數量;根據所述原始節點數量和所述複合節點容量,判定第一數量,所述第一數量為,在各個複合節點對應的原始節點數量與所述複合節點容量相等的情況下,最多可以劃分的複合節點數量;從所述候選關係網路中的原始節點中,隨機選取所述第一數量的原始節點,作為各個複合節點的基準節點;對各個基準節點,分別從所述候選關係網路中判定第二數量的原始節點,和相應基準節點一起作為相應的複合節點,所述第二數量比所述第一數量小1個單位。
  3. 如請求項1所述的方法,其中,所述多個複合節點包括第一複合節點和第二複合節點,所述第一複合節點對應有第一原始節點,所述第二複合節點對應有第二原始節點,所述針對所述多個複合節點,檢測兩兩之間是否存在連接邊包括:在所述第一原始節點和所述第二原始節點之間存在連接邊的情況下,判定所述第一複合節點和所述第二複合節點之間存在連接邊。
  4. 如請求項1所述的方法,其中,所述檢測結果包括,各個複合節點之間的連接邊集合,以及所述連接邊集合中的連接邊數量,所述基於檢測結果,利用差分 隱私方式對所述多個複合節點添加邊和權重包括:對所述連接邊數量添加在第一隱私代價下的雜訊。
  5. 如請求項4所述的方法,其中,所述在第一隱私代價下的雜訊滿足縮放參數為所述第一隱私代價的倒數的拉普拉斯分佈。
  6. 如請求項5所述的方法,其中,所述在第一隱私代價下的雜訊為,透過預定的隨機演算法產生第一隨機值,在拉普拉斯分佈的引數為所述第一隨機值時,拉普拉斯分佈的因變數值。
  7. 如請求項4所述的方法,其中,所述基於檢測結果,利用差分隱私方式對所述多個複合節點添加邊和權重還包括:從所述連接邊集合中選擇第三數量的連接邊;為各個複合節點構造第四數量的雜訊連接邊,所述雜訊連接邊是所述連接邊集合之外的連接邊。
  8. 如請求項7所述的方法,其中,對所述連接邊數量添加在第一隱私代價下的雜訊後得到第五數量,各個複合節點之間的最大連接邊數量為第六數量,所述第三數量和所述第四數量的比值,與所述第五數量和以下數量的比值一致:所述第六數量與所述第五數量的差。
  9. 如請求項7所述的方法,其中,所述連接邊集合中包括第一連接邊,所述連接邊集合中的連接邊分別對應有給定一致的初始權重,所述從所述連接邊集合中選擇第三數量的連接邊包括: 對於所述第一連接邊,在給定的初始權重上,添加符合基於第二隱私代價的累積概率滿足雙邊幾何分佈的雜訊,得到相應的第一雜訊權重,所述第二隱私代價是預定的整體隱私代價與所述第一隱私代價的差;在所述第一雜訊權重大於第一權重臨限值的情況下,選擇所述第一連接邊作為基於隱私保護的關係網路中的連接邊,並將所述第一雜訊權重作為所述第一連接邊的權重。
  10. 如請求項9所述的方法,其中,所述給定的初始權重為1,並且,透過以下方式為所述第一連接邊添加雜訊:透過預定的隨機演算法為集合雙邊分佈產生預定區間內的第二隨機值;判定雙邊幾何分佈的引數在得到所述第二隨機值的情況下引數的取值;為所述第一連接邊添加雜訊後的權重為所述初始權重與所述引數的取值的和。
  11. 如請求項9所述的方法,其中,所述第一權重臨限值是對所述連接邊集合中的各個連接邊,按照所述第二隱私代價下的高通濾波器進行單邊濾波情況下,得到第一比例的連接邊的引數臨限值,其中,所述第一比例是以下第一項與第二項的比值:所述第一項為基於對所述連接邊數量添加在第一隱私代價下的雜訊後得到的第五數量; 所述第二項為各個複合節點之間的最大連接邊數量與所述第五數量的差。
  12. 如請求項7所述的方法,所述第四數量是按照第二隱私代價下的高通濾波器的過濾比例判定的,所述第二隱私代價是預定的整體隱私代價與所述第一隱私代價的差,所述第四數量與以下項的差的比值與所述第二隱私代價下的高通濾波器的過濾比例一致:各個複合節點之間的最大連接邊數量、基於對所述連接邊數量添加在第一隱私代價下的雜訊後得到的連接邊數量。
  13. 如請求項12所述的方法,其中,所述多個複合節點包括第三複合節點和第四複合節點,所述第三複合節點和所述第四複合節點之間不存在所述連接邊集合中的連接邊相連,所述為各個複合節點構造第四數量的雜訊連接邊包括:為所述第三複合節點和所述第四複合節點添加初始權重為0的第二連接邊;為所述第二連接邊產生滿足在所述第二隱私代價下的累積概率滿足指數分佈的雜訊權重;在為所述第二連接邊產生的雜訊權重大於0的情況下,將所述第二聯街邊判定為添加的連接邊,所產生的雜訊權重為所述第二連接邊的權重。
  14. 如請求項13所述的方法,其中,透過以下方式為所述第二連接邊產生滿足在所述第二隱私代價下的指數分佈的雜訊權重: 透過預定的隨機演算法產生一個預定概率區間的隨機值;將在所述第二隱私代價下的指數分佈取所述隨機值的情況下,引數的取值作為為所述第二連接邊產生的雜訊權重。
  15. 一種在多個候選使用者中判定使用者團體的方法,所述方法包括:獲取利用請求項1的方法為所述多個候選使用者產生的基於隱私保護的關係網路;利用預定的團體識別模型處理基於隱私保護的關係網路,得到多個複合節點集合;從所述多個複合節點集合中判定至少一個候選複合節點集合,以供初始關係網路的資料方按照單個候選複合節點集合中的各個候選複合節點從所述多個候選使用者中判定出相應的目標使用者團體。
  16. 如請求項15所述的方法,其中,所述利用預定的團體識別模型處理基於隱私保護的關係網路,得到多個複合節點集合包括:將基於隱私保護的關係網路作為初始的當前關係網路,在初始的當前關係網路中,每個複合節點作為一個社區;執行以下模組度最大化步驟:將每個複合節點移動到與之相鄰的複合節點所在的社區中,計算以社區為節點的當前關係網路的模組度大小,並選擇使得模組度最大的一 種移動方式;對移動後在同一個社區內的複合節點合併到同一個社區,反覆運算執行所述模組度最大化步驟,直至當前關係網路的模組度不再變化;針對各個社區,分別產生相應的各個複合節點集合。
  17. 如請求項16所述的方法,其中,當前關係網路的模組度透過對各個社區的節點度求和得到,當前關係網路中第一社區的節點度為,以下第一項與第二項的差:所述第一項為,所述第一社區中總的連接邊數量與當前關係網路中總的連接邊數的比值;所述第二項為,聚類到所述第一社區的各個複合節點的總度數與當前關係網路中總的連接邊數的2倍的比值的平方。
  18. 如請求項15-17任一所述的方法,其中,所述模組度最大化步驟透過以下方式之一判定:貪心演算法、模擬退火演算法、隨機遊走演算法、統計原理演算法、標籤傳播演算法、InfoMap演算法、Louvain演算法。
  19. 如請求項15所述的方法,其中,所述從所述多個複合節點集合中判定至少一個候選複合節點集合包括:將複合節點的數量大於預定數量臨限值的複合節點集合判定為候選複合節點集合; 從而使得初始關係網路的資料方透過以下方式按照單個候選複合節點集合中的各個候選複合節點從所述多個候選使用者中判定出相應的目標使用者團體:按照預先設定的映射規則,將各個候選複合節點分別映射到初始關係網路的多個初始使用者;從所述多個初始使用者中選擇所述多個候選使用者中的使用者,並將選擇出的使用者識別為所述單個候選複合節點集合對應的目標使用者團體。
  20. 如請求項15所述的方法,其中,所述方法的執行主體為初始關係網路的資料方,所述多個複合節點集合包括第一複合節點集合,所述從所述多個複合節點集合中判定至少一個候選複合節點集合包括:按照預先設定的映射規則,將所述第一複合節點集合中的各個複合節點分別映射到初始關係網路的多個初始使用者;檢測所述多個初始使用者中,是否存在預定數量或預定比例的初始使用者,註冊時間短於預定的時間臨限值;若存在,則將所述第一複合節點集合判定為候選複合節點集合。
  21. 一種基於隱私保護的關係網路構建裝置,其中,基於隱私保護的關係網路透過多個複合節點構成,所述多個複合節點之間透過連接邊描述關聯關係,單個複合節點對應候選關係網路中的多個原始節點,各個原始節點分別對應各個使用者,原始節點之間的連接邊描述 相應使用者之間的關聯關係;所述裝置包括:獲取單元,組態為獲取所述候選關係網路;節點構建單元,組態為將所述候選關係網路中的原始節點按照預設的複合節點容量,劃分出多個複合節點,其中,單個複合節點對應的原始節點數量不超過所述複合節點容量;檢測單元,組態為針對所述多個複合節點,檢測兩兩之間是否存在連接邊;邊構建單元,組態為基於檢測結果,利用差分隱私方式對所述多個複合節點添加邊和權重,從而構建基於隱私保護的關係網路;其中,所述候選關係網路透過以下方式獲取:獲取基於第三業務方提供的多個候選使用者的使用者標識;基於所述使用者標識,從初始關係網路中篩選出所述多個候選使用者對應的原始節點,及其預定階數內的鄰居節點,作為候選節點;將所述候選節點構成的關係網路,作為候選關係網路。
  22. 一種在多個候選使用者中判定使用者團體的裝置,所述裝置包括:獲取單元,組態為獲取利用請求項21的裝置為所述多個候選使用者產生的基於隱私保護的關係網路;處理單元,組態為利用預定的團體識別模型處理基於 隱私保護的關係網路,得到多個複合節點集合;判定單元,組態為從所述多個複合節點集合中判定至少一個候選複合節點集合,以供初始關係網路的資料方按照單個候選複合節點集合中的各個候選複合節點從所述多個候選使用者中判定出相應的目標使用者團體。
  23. 一種電腦可讀儲存媒體,其上儲存有電腦程式,當所述電腦程式在電腦中執行時,令電腦執行請求項1-20中任一項的所述的方法。
  24. 一種計算設備,包括記憶體和處理器,所述記憶體中儲存有可執行代碼,所述處理器執行所述可執行代碼時,實現請求項1-20中任一項所述的方法。
TW109115721A 2019-12-13 2020-05-12 基於隱私保護的關係網路構建方法及裝置 TWI724896B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911284478.0 2019-12-13
CN201911284478.0A CN111046429B (zh) 2019-12-13 2019-12-13 基于隐私保护的关系网络构建方法及装置

Publications (2)

Publication Number Publication Date
TWI724896B true TWI724896B (zh) 2021-04-11
TW202123118A TW202123118A (zh) 2021-06-16

Family

ID=70236206

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109115721A TWI724896B (zh) 2019-12-13 2020-05-12 基於隱私保護的關係網路構建方法及裝置

Country Status (3)

Country Link
CN (1) CN111046429B (zh)
TW (1) TWI724896B (zh)
WO (1) WO2021114921A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046429B (zh) * 2019-12-13 2021-06-04 支付宝(杭州)信息技术有限公司 基于隐私保护的关系网络构建方法及装置
CN111626890B (zh) * 2020-06-03 2023-08-01 四川大学 一种基于销售信息网络的显著社团发现方法
CN111783996B (zh) * 2020-06-18 2023-08-25 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备
CN111737751B (zh) * 2020-07-17 2020-11-17 支付宝(杭州)信息技术有限公司 实现隐私保护的分布式数据处理的方法及装置
CN112528166A (zh) * 2020-12-16 2021-03-19 平安养老保险股份有限公司 用户关系分析方法、装置、计算机设备及存储介质
CN113344727A (zh) * 2021-06-29 2021-09-03 北京工业大学 一种社交网络中隐私信息传播范围的度量方法
CN113361055B (zh) * 2021-07-02 2024-03-08 京东城市(北京)数字科技有限公司 扩展社交网络中的隐私处理方法、装置、电子设备和存储介质
CN114564752B (zh) * 2022-04-28 2022-07-26 蓝象智联(杭州)科技有限公司 一种基于图联邦的黑名单传播方法
CN115114664B (zh) * 2022-06-24 2023-05-23 浙江大学 一种面向图数据的差分隐私保护发布方法及系统
CN115828312B (zh) * 2023-02-17 2023-06-16 浙江浙能数字科技有限公司 一种面向电力用户社交网络的隐私保护方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734169B2 (en) * 2007-01-05 2017-08-15 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
CN107689950A (zh) * 2017-06-23 2018-02-13 平安科技(深圳)有限公司 数据发布方法、装置、服务器和存储介质
TW201915893A (zh) * 2017-10-09 2019-04-16 香港商阿里巴巴集團服務有限公司 資料請求處理、詢問消息處理方法、裝置以及設備
CN110147996A (zh) * 2019-05-21 2019-08-20 中央财经大学 一种基于区块链的数据交易本地化差分隐私保护方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110105143A1 (en) * 2009-11-03 2011-05-05 Geosolutions B.V. Proximal relevancy ranking in a layered linked node database
CN104866781B (zh) * 2015-05-27 2017-07-04 广西师范大学 面向社区检测应用的社会网络数据发布隐私保护方法
CN105376243B (zh) * 2015-11-27 2018-08-21 中国人民解放军国防科学技术大学 基于分层随机图的在线社会网络差分隐私保护方法
CN106650487B (zh) * 2016-09-29 2019-04-26 广西师范大学 基于多维敏感数据发布的多部图隐私保护方法
CN109299615B (zh) * 2017-08-07 2022-05-17 南京邮电大学 一种面向社交网络数据的差分隐私处理发布方法
CN107918664B (zh) * 2017-11-22 2021-07-27 广西师范大学 基于不确定图的社会网络数据差分隐私保护方法
KR102175167B1 (ko) * 2018-05-09 2020-11-05 서강대학교 산학협력단 K-평균 클러스터링 기반의 데이터 마이닝 시스템 및 이를 이용한 k-평균 클러스터링 방법
CN109344643B (zh) * 2018-09-03 2022-03-29 华中科技大学 一种面向图中三角形数据发布的隐私保护方法及系统
CN110032603A (zh) * 2019-01-22 2019-07-19 阿里巴巴集团控股有限公司 一种对关系网络图中的节点进行聚类的方法及装置
CN109829337B (zh) * 2019-03-07 2023-07-25 广东工业大学 一种社会网络隐私保护的方法、系统及设备
CN110288358A (zh) * 2019-06-20 2019-09-27 武汉斗鱼网络科技有限公司 一种设备团体确定方法、装置、设备及介质
CN111046429B (zh) * 2019-12-13 2021-06-04 支付宝(杭州)信息技术有限公司 基于隐私保护的关系网络构建方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734169B2 (en) * 2007-01-05 2017-08-15 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
CN107689950A (zh) * 2017-06-23 2018-02-13 平安科技(深圳)有限公司 数据发布方法、装置、服务器和存储介质
TW201915893A (zh) * 2017-10-09 2019-04-16 香港商阿里巴巴集團服務有限公司 資料請求處理、詢問消息處理方法、裝置以及設備
CN110147996A (zh) * 2019-05-21 2019-08-20 中央财经大学 一种基于区块链的数据交易本地化差分隐私保护方法及装置

Also Published As

Publication number Publication date
CN111046429A (zh) 2020-04-21
CN111046429B (zh) 2021-06-04
WO2021114921A1 (zh) 2021-06-17
TW202123118A (zh) 2021-06-16

Similar Documents

Publication Publication Date Title
TWI724896B (zh) 基於隱私保護的關係網路構建方法及裝置
CN110958220B (zh) 一种基于异构图嵌入的网络空间安全威胁检测方法及系统
Ghazal et al. DDoS Intrusion Detection with Ensemble Stream Mining for IoT Smart Sensing Devices
CN112084422B (zh) 一种账号数据智能处理方法和装置
CN106101202B (zh) 用于社交图数据分析以确定社区内的连接性的系统和方法
US11159556B2 (en) Predicting vulnerabilities affecting assets of an enterprise system
US20150188941A1 (en) Method and system for predicting victim users and detecting fake user accounts in online social networks
CN107358116B (zh) 一种多敏感属性数据发布中的隐私保护方法
Rodriguez et al. Patent clustering and outlier ranking methodologies for attributed patent citation networks for technology opportunity discovery
CN111787000B (zh) 网络安全评估方法及电子设备
EP3785415B1 (en) Apparatus and method for evaluating multiple aspects of the security for virtualized infrastructure in a cloud environment
Chakraborty et al. A Secure IoT‐Based Cloud Platform Selection Using Entropy Distance Approach and Fuzzy Set Theory
Guendouzi et al. A systematic review of federated learning: Challenges, aggregation methods, and development tools
Priyanga et al. An improved rough set theory based feature selection approach for intrusion detection in SCADA systems
Doyle et al. Predicting complex user behavior from CDR based social networks
Sun et al. An entropy‐based self‐adaptive node importance evaluation method for complex networks
Sei et al. Privacy-preserving collaborative data collection and analysis with many missing values
Marchal et al. Detecting organized eCommerce fraud using scalable categorical clustering
Shen et al. Finding mnemon: Reviving memories of node embeddings
Galli et al. Group privacy for personalized federated learning
Farhana et al. Evaluation of Boruta algorithm in DDoS detection
Jiang et al. A negative survey based privacy preservation method for topology of social networks
Xian et al. Multi-view low-rank coding-based network data de-anonymization
Wu et al. Structural predictability optimization against inference attacks in data publishing
Taha Identifying the top-k influential spreaders in social networks: a survey and experimental evaluation