TW201939917A - 圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備 - Google Patents

圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備 Download PDF

Info

Publication number
TW201939917A
TW201939917A TW107147678A TW107147678A TW201939917A TW 201939917 A TW201939917 A TW 201939917A TW 107147678 A TW107147678 A TW 107147678A TW 107147678 A TW107147678 A TW 107147678A TW 201939917 A TW201939917 A TW 201939917A
Authority
TW
Taiwan
Prior art keywords
account
data
node
structure model
graph structure
Prior art date
Application number
TW107147678A
Other languages
English (en)
Other versions
TWI690191B (zh
Inventor
劉子奇
陳超超
周俊
李小龍
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201939917A publication Critical patent/TW201939917A/zh
Application granted granted Critical
Publication of TWI690191B publication Critical patent/TWI690191B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本說明書實施例公開了圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備。方案包括:獲取帳戶媒介網路圖,帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係,獲取節點的特徵資料和風險標注資料,特徵資料反映對應節點在時間序列上的登錄行為,根據帳戶媒介網路圖、特徵資料和風險標注資料,訓練預定義的圖結構模型,利用訓練後的圖結構模型識別垃圾帳戶。

Description

圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備
本說明書關於電腦軟體技術領域,尤其關於圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備。
隨著電腦和網際網路技術的迅速發展,很多業務可以在網上進行,用戶要使用這些業務,往往需要註冊相應的帳戶,例如電商平臺帳戶、第三方支付平臺帳戶、論壇平臺帳戶等。
一些用戶或者組織出於不良目的,會註冊大量帳戶,並利用這些帳戶進行一些異常操作,例如傳播留言、推銷虛假廣告、刷單等,這些帳戶可能給平臺帶來風險,而且對於平臺價值也較低,被視為垃圾帳戶。
在現有技術中,一般藉由用戶舉報的方式,判定垃圾帳戶並進行相應的處理,例如凍結、註銷等。
基於現有技術,需要有效的垃圾帳戶識別方案。
本說明書實施例提供圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備,用以解決如下技術問題:需要有效的垃圾帳戶識別方案。
為解決上述技術問題,本說明書實施例是這樣實現的:
本說明書實施例提供的一種圖結構模型訓練方法,包括:
獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係;
獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為;
根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
本說明書實施例提供的一種垃圾帳戶識別方法,包括:
獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖;
將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用上述圖結構模型訓練方法訓練後的圖結構模型進行計算;
根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
本說明書實施例提供的一種圖結構模型訓練裝置,包括:
第一獲取模組,獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係;
第二獲取模組,獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為;
訓練識別模組,根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
本說明書實施例提供的一種垃圾帳戶識別裝置,包括:
獲取模組,獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖;
輸入模組,將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用上述圖結構模型訓練方法訓練後的圖結構模型進行計算;
判定模組,根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
本說明書實施例提供的一種圖結構模型訓練設備,包括:
至少一個處理器;以及,
與所述至少一個處理器通訊連接的記憶體;其中,
所述記憶體儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠:
獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係;
獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為;
根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
本說明書實施例採用的上述至少一個技術方案能夠達到以下有益效果:藉由上述基於帳戶媒介網路圖的圖嵌入方案,能夠利用垃圾帳戶的媒介聚集性和時間聚集性,有效地識別垃圾帳戶。
本說明書實施例提供圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備。
為了使本技術領域的人員更好地理解本說明書中的技術方案,下面將結合本說明書實施例中的附圖,對本說明書實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本說明書實施例,本領域普通技術人員在沒有作出進步性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。
一般地,用於非正常行為的帳戶均可以視為垃圾帳戶,例如藉由機器自動大量註冊的帳戶等。在大多數業務平臺的風控體系中,識別垃圾帳戶在風控安全上具有重要意義,難點體現為新註冊的帳戶並沒有足夠的帳戶畫像資訊判定其是否為垃圾帳戶。本說明書考慮到了垃圾帳戶往往具有的兩種特性,媒介聚集性和時間聚集性,進而根據這兩種特性提出了一種有監督圖嵌入的垃圾帳戶識別方案,能夠有效地識別垃圾帳戶。這裡,圖嵌入可以指將圖中節點的一些原始資料在指定的特徵空間(本說明書稱為隱特徵空間)進行映射,得到相應的嵌入向量,用於表示節點。
媒介聚集性可以指:同一個惡意用戶註冊的多個垃圾帳戶往往是藉由同一個或者少數幾個媒介註冊的。導致媒介聚集性的原因在於:惡意用戶往往尋求利益上的追求,他們並沒有足夠的資源藉由大量媒介註冊大量帳戶。
時間聚集性可以指:同一個惡意用戶控制的垃圾帳戶往往在某一個短時間段內形成大量非正常行為。導致時間聚集性的原因在於:惡意用戶往往追求短期的利益目標,造成在他們控制下的帳戶必須在短時間內產生大量非正常行為。
圖1為本說明書的方案在一種實際應用場景下關於的一種整體架構示意圖。該整體架構中,主要關於預定義的圖結構模型所在有監督學習伺服器,以及訓練圖結構模型能夠使用的三類資料:反映指定行為關係的帳戶媒介網路圖、帳戶媒介網路圖中節點反映時間序列上的指定行為的特徵資料、節點的風險標注資料。指定行為例如是登錄行為、註冊行為、交易行為等。圖結構模型訓練後,能夠用於識別垃圾帳戶。
這些訓練用的資料可以由有監督學習伺服器或者其他設備生成,或者也可以人工編寫。
下面基於圖1中示例性的架構,對本說明書的方案進行詳細說明。
圖2為本說明書實施例提供的一種圖結構模型訓練方法的流程示意圖。圖2中的流程包括以下步驟:
S202:獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係。
在本說明書實施例中,帳戶媒介網路圖是一種異質網路圖,異質指節點性質差異,例如,圖中某些節點可能表示帳戶,某些節點可能表示帳戶相關的媒介。帳戶藉由媒介註冊或者實現後續行為,媒介例如是設備、IP網路、實體位址等。
在本說明書實施例中,帳戶媒介網路圖可以根據帳戶一定時間範圍內的歷史資料生成。歷史資料可以包括帳戶的註冊行為資料,例如,帳戶是藉由怎樣的媒介註冊的、帳戶註冊時填寫的註冊資訊等;歷史資料也可以包括帳戶註冊後的行為資料,例如帳戶的登錄行為資料、交易行為資料等。對於一定時間範圍,這裡不做具體限定,可以預先設定,例如最近若干天等。
對於新註冊的帳戶,例如,可以根據帳戶註冊行為資料,和/或註冊後一定時間範圍(通常是某個短時間範圍)內的指定行為資料,生成帳戶媒介網路圖,以便於儘量提前識別垃圾帳戶。
為了便於描述,下面一些實施例主要以媒介為設備,指定行為為登錄行為為例進行說明,則帳戶媒介網路圖具體為帳戶設備網路圖。
在生成帳戶設備網路圖時,可以先確定所要表示的各帳戶和各設備,將要表示的每個帳戶分別用一個節點表示,每個設備也可以分別用一個節點表示,任意一個節點要麼表示帳戶,要麼表示設備。進一步地,若兩個節點間具有登錄關係,則在這兩個節點間建立一條表示該登錄行為關係的邊,從而生成帳戶設備網路圖。
這裡,登錄行為關係主要指帳戶與設備間的關係,若某帳戶一定時間範圍內在某設備上登錄過,則可以稱該帳戶與該設備間具有登錄行為關係。需要說明的是,在實際應用中,若有需求,登錄行為關係的具體含義也可以拓寬,例如,登錄行為關係也可以包括帳戶與帳戶間的關係,若某帳戶與另一帳戶一定時間範圍內曾在同一設備上的登錄過,則可以稱該帳戶與該另一帳戶間具有登錄行為關係。
在本說明書實施例中,帳戶媒介網路圖可以是無向圖,也可以是有向圖,這裡不做具體限定。一般地,若只反映登錄行為關係,則採用無向圖即可;而若還反映諸如交易行為關係等更多的關係,也可以採用有向圖,在有向圖中,邊的指向指出業務關係方向,例如,若A節點表示買家帳戶,B節點表示賣家帳戶,則表示A節點與B節點間交易行為關係的邊可以是從A節點指定B節點,該指向也能夠反映資金流動方向。
在本說明書實施例中,為了便於圖計算,帳戶媒介網路圖可以用矩陣進行表示。可以使矩陣的不同的單行、單列分別表示帳戶媒介網路圖中不同節點,矩陣中的不同元素分別表示,其所在行與列表示的節點間的登錄行為關係。
例如,對於表示帳戶設備網路圖的矩陣,例如將矩陣記作,矩陣為列,表示所要表示的帳戶數加設備數。假定帳戶設備網路圖為一個二部圖,只有表示帳戶的節點與表示設備的節點間才可能有邊,若有邊,則對應的元素為1,否則為0,例如,若表示帳戶與設備的節點間有邊,則的第列的元素
S204:獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為。
在本說明書實施例中,步驟S204中的節點可以是帳戶媒介網路圖中的部分節點,而未必是全部節點。例如,可以是表示帳戶的至少部分節點,當然,還可以獲取表示媒介的至少部分節點的特徵資料,表示媒介的節點的特徵資料未必要反映對應節點在時間序列上的登錄行為,這裡不做具體限定,若媒介是設備,其特徵資料例如可以反映諸如設備類型、設備廠商等設備資訊。
在本說明書實施例中,特徵資料可以根據帳戶一定時間範圍內的歷史資料生成。針對前面提到的時間聚集性,在生成特徵資料時,不光考慮帳戶的登錄行為本身,還考慮帳戶的登錄行為與時間之間的關係,例如,可以將時間序列化(如劃分多個時間區間、或者採樣離散的時間點等),確定在帳戶的登錄行為在時間序列上的分佈情況,例如,登錄行為發生的具體時刻、持續時間、單位時間內登錄行為發生的次數等。特徵資料一般可以表示為向量或者矩陣,下面一些實施例主要以特徵資料表示為向量為例進行說明。
在本說明書實施例中,以帳戶設備網路圖中的各節點為例。某些節點可能表示垃圾帳戶,某些節點可能表示垃圾帳戶登錄過的設備,這些情況尚且未明確,需要藉由特定手段明確其中的至少部分情況,才能夠得到有訓練標籤的訓練樣本,進而才能夠用於後續的有監督學習。特定手段這裡不做具體限定,例如,可以基於抽樣精確追蹤分析,也可以基於用戶舉報等手段。
藉由明確的上述至少部分情況,能夠預先或者即時地為部分節點標注風險標注資料,風險標注資料能夠指出節點所存在的風險,例如,是否表示垃圾帳戶,是否表示登錄過垃圾帳戶的設備等。在實際應用中,這裡的風險可以不局限於垃圾帳戶相關內容,例如也可以表示正常帳戶存在的容易受到攻擊的風險等。上述的訓練標籤可以根據風險標注資料得到,一般地,風險標注資料可以直接作為訓練標籤。
風險標注資料的表示形式是多樣的,這裡不做具體限定。例如,若確定某節點與垃圾帳戶無關,該節點的風險標注資料可以記作1,若確定某節點表示垃圾帳戶或者表示登錄過垃圾帳戶的設備,該節點的風險標注資料可以記作0;等等。
另外,在實際應用中,也可以只對表示帳戶的節點標注風險標注資料,而不對表示媒介的節點標注風險標注資料。
S206:根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
在本說明書實施例中,圖結構模型的至少部分參數是基於圖結構的,這部分參數可以用根據至少部分帳戶媒介網路圖和/或特徵資料進行指派。圖結構模型還有一部分參數需要藉由訓練最佳化求解。
例如,在一種實際應用場景下,圖結構模型用於根據節點的特徵資料,以及帳戶媒介網路圖中對應於所述節點的拓撲結構,計算隱特徵空間中所述節點多次迭代後的嵌入向量;進一步地,圖結構模型還用於根據所述嵌入向量,計算所述節點的預測資料,預測資料表示所述節點對應於垃圾帳戶的可能性。
預測資料的形式是多樣的,這裡不做具體限定,例如是機率值、非機率值的分值、或者分類類別標識等形式。
在實際應用中,圖結構模型也未必要計算預測資料,可以在計算出嵌入向量後輸出給別的模型使用,本說明書不詳細分析這種情況,下面一些實施例主要還是基於上例進行說明。
在本說明書實施例中,圖結構模型訓練後,即可以用於分類或者回歸,以預測輸入資料的風險性質。
例如,輸入資料可以是待識別帳戶對應的特徵資料,以及待識別帳戶所屬帳戶媒介網路圖(未必是步驟S202中的帳戶媒介網路圖)中對應的拓撲結構,藉由訓練後的圖結構模型的計算,輸出預測資料,從能能夠判定待識別帳戶是否為垃圾帳戶。其中,待識別帳戶可以是步驟S202中的帳戶媒介網路圖中節點所表示的,也可以是該帳戶媒介網路圖之外的;對於前一種情況,輸入資料已經確定,因此可以直接進行識別,而對於後一種情況,輸入資料可能尚未確定,則可以採用本說明書的方案,先確定輸入資料,再進行識別。
當然,根據風險標注資料的具體內容,圖結構模型除了用於識別垃圾帳戶以外,還可能用於預測其他態樣的風險,原理都是相同的,這裡不再贅述。
藉由圖2的方法,藉由上述基於帳戶媒介網路圖的圖嵌入方案,能夠利用垃圾帳戶的媒介聚集性和時間聚集性,有效地識別垃圾帳戶。
基於圖2的方法,本說明書實施例還提供了該方法的一些具體實施方案,以及擴展方案,下面進行說明。
在本說明書實施例中,根據上面的例子可知,對於步驟S206,所述識別垃圾帳戶,具體可以包括:獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖;將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構輸入訓練後的所述圖結構模型進行計算;獲取訓練後的所述圖結構模型計算後輸出的預測資料,以判定所述待識別帳戶是否為垃圾帳戶。
在本說明書實施例中,前面已經提到,時間序列可以藉由劃分時間範圍得到,在這種該情況下,對於步驟S204,所述獲取所述節點的特徵資料,具體可以包括:獲取所述節點一定時間範圍內的登錄行為資料;將所述一定時間範圍進行劃分,得到時間序列;根據所述時間序列中所述登錄行為資料的分佈情況,生成特徵向量,作為所述節點的特徵資料。
例如,假定一定時間範圍被設定為過去的天,按小時劃分,則能夠劃分得到個時間分段構成的時間序列,可以根據帳戶在各時間分段內的登錄次數,生成維特徵向量。這裡並不限定的具體構建方式,例如,可以等於的每個元素可以分別表示帳戶在其中一個時間分段內的登錄次數,的元素可以是經過常態化處理的。
在本說明書實施例中,隱特徵空間中節點在第次迭代後的嵌入向量可以是根據所述節點的特徵資料、帳戶媒介網路圖中對應於所述節點的拓撲結構,以及隱特徵空間中所述節點在第次迭代後的嵌入向量計算得到的。更直觀地,結合上面的一些例子,一種示例性的圖結構模型的定義及訓練過程如下所示:
“初始化圖結構模型待最佳化求解的參數:,例如,採用標準高斯分佈初始化等;
迭代訓練設定次數或者直至訓練收斂:
初始化
{forto: //次迭代執行,以計算嵌入向量
;} //(公式一)
; //(公式二)根據嵌入向量,計算預測資料
optimize;//(公式三)最佳化參數
其中,表示隱特徵空間中至少一個所述節點在第次迭代後的嵌入向量,表示非線性變換函數(例如,Relu、Sigmoid、Tanh等函數),表示權重矩陣,表示所述至少一個所述節點的特徵資料,表示所述帳戶媒介網路圖中對應於所述至少一個所述節點的拓撲結構;表示第個所述節點經過迭代後的預測資料,表示隱特徵空間中第個所述節點所述多次迭代後的嵌入向量,表示用於將分值化的參數向量,表示轉置運算;表示第個所述節點的風險標注資料,表示用於度量所述預測資料與其對應的風險標注資料的一致性差距的損失函數,這裡不做具體限定,例如,可以採用logistic loss、hinge loss、cross_entropy等損失函數。
在前面的一個例子中,,此時表示所述帳戶媒介網路圖完整的拓撲結構,在這種情況下,可以使表示所述帳戶媒介網路圖中全部節點的特徵資料,以及可以使表示所述帳戶媒介網路圖中全部節點的嵌入向量,例如,的每行分別表示一個節點的特徵資料,表示嵌入的隱特徵空間的維度,的每行分別表示一個節點的嵌入向量。
當然,也可以使只表示帳戶媒介網路圖完整的拓撲結構的一部分,相應地,也可以只包含帳戶媒介網路圖中一部分節點的資料。
在本說明書實施例中,可以以預測資料與其對應的風險標注資料的一致性最大化為訓練目標,訓練圖結構模型。則在上例的場景下,對於步驟S206,所述訓練預定義的圖結構模型,具體可以包括:利用反向傳播演算法和所述風險標注資料,對進行最佳化,求得最優的
上面的公式一、公式二、公式三是示例性的,並非唯一方案。例如,公式一中分別的所在項可以藉由乘法、指數或者對數等運算進行變形,或者還可以合併這兩項,或者還可以刪除其中一項;再例如,公式二中也可以利用函數對進行分值化;再例如,若公式三的損失函數表示預測資料與對應的風險預測資料的一致化程度,則公式三中可以調整為求最大值而不是求最小值;等等。
進一步地,本說明書實施例還提供了基於上述圖結構模型的一種垃圾帳戶識別方法的流程示意圖,如圖3所示。圖3中的流程包括以下步驟:
S302:獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖。
S304:將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用上述圖結構模型訓練方法訓練後的圖結構模型進行計算。
S306:根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
根據上面的說明,本說明書實施例還提供了上述各方法的一種實施方案示意圖,如圖4所示。
圖4的方案可以包括以下步驟:獲取過去的天內的帳戶設備網路圖、每個帳戶的登錄行為資料和風險標注資料;藉由有監督學習,訓練預定義的圖結構模型,得到訓練後的圖結構模型;對待預測資料(如一個或者多個帳戶),獲取對應的帳戶設備網路圖、每個帳戶的登錄行為資料;利用訓練後的圖結構模型進行預測,得到預測結果。
上面對本說明書實施例提供的方法進行了說明,基於同樣的思路,本說明書實施例還提供了對應的裝置和設備,如圖5~圖8所示。
圖5為本說明書實施例提供的對應於圖2的一種圖結構模型訓練裝置的結構示意圖,該裝置可以位於圖2中流程的執行主體,包括:
第一獲取模組501,獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係;
第二獲取模組502,獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為;
訓練識別模組503,根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
可選地,所述媒介包括設備。
可選地,所述圖結構模型用於根據所述節點的特徵資料,以及所述帳戶媒介網路圖中對應於所述節點的拓撲結構,計算隱特徵空間中所述節點多次迭代後的嵌入向量。
可選地,所述圖結構模型還用於根據所述嵌入向量,計算所述節點的預測資料,所述預測資料表示所述節點對應於垃圾帳戶的可能性。
可選地,所述訓練識別模組503識別垃圾帳戶,具體包括:
訓練識別模組503獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖;
將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構輸入訓練後的所述圖結構模型進行計算;
獲取訓練後的所述圖結構模型計算後輸出的預測資料,以判定所述待識別帳戶是否為垃圾帳戶。
可選地,所述第二獲取模組502獲取所述節點的特徵資料,具體包括:
所述第二獲取模組502獲取所述節點一定時間範圍內的登錄行為資料;
將所述一定時間範圍進行劃分,得到時間序列;
根據所述時間序列中所述登錄行為資料的分佈情況,生成特徵向量,作為所述節點的特徵資料。
可選地,隱特徵空間中所述節點在第次迭代後的嵌入向量是根據所述節點的特徵資料、所述帳戶媒介網路圖中對應於所述節點的拓撲結構,以及隱特徵空間中所述節點在第次迭代後的嵌入向量計算得到的。
可選地,所述根據所述節點的特徵資料,以及所述帳戶媒介網路圖中對應於所述節點的拓撲結構,計算隱特徵空間中所述節點多次迭代後的嵌入向量,具體包括:
按照如下公式,計算隱特徵空間中所述節點多次迭代後的嵌入向量:

其中,表示隱特徵空間中至少一個所述節點在第次迭代後的嵌入向量,表示非線性變換函數,表示權重矩陣,表示所述至少一個所述節點的特徵資料,表示所述帳戶媒介網路圖中對應於所述至少一個所述節點的拓撲結構。
可選地,所述根據所述嵌入向量,計算所述節點的預測資料,具體包括:
按照如下公式,計算所述節點的預測資料:

其中,表示第個所述節點經過迭代後的預測資料,表示隱特徵空間中第個所述節點所述多次迭代後的嵌入向量,表示用於將分值化的參數向量,表示轉置運算。
可選地,所述訓練識別模組503訓練預定義的圖結構模型,具體包括:
所述訓練識別模組503以所述預測資料與其對應的風險標注資料的一致性最大化為訓練目標,訓練預定義的圖結構模型。
可選地,所述訓練識別模組503訓練預定義的圖結構模型,具體包括:
所述訓練識別模組503利用反向傳播演算法和所述風險標注資料,對進行最佳化,求得最優的
其中,表示第個所述節點的風險標注資料,表示用於度量所述預測資料與其對應的風險標注資料的一致性差距的損失函數。
圖6為本說明書實施例提供的對應於圖3的一種垃圾帳戶識別裝置的結構示意圖,該裝置可以位於圖3中流程的執行主體,包括:
獲取模組601,獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖;
輸入模組602,將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用上述圖結構模型訓練方法訓練後的圖結構模型進行計算;
判定模組603,根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
圖7為本說明書實施例提供的對應於圖2的一種圖結構模型訓練設備的結構示意圖,所述設備包括:
至少一個處理器;以及,
與所述至少一個處理器通訊連接的記憶體;其中,
所述記憶體儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠:
獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係;
獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為;
根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
圖8為本說明書實施例提供的對應於圖3的一種垃圾帳戶識別設備的結構示意圖,所述設備包括:
至少一個處理器;以及,
與所述至少一個處理器通訊連接的記憶體;其中,
所述記憶體儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠:
獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖;
將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用上述圖結構模型訓練方法訓練後的圖結構模型進行計算;
根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
基於同樣的思路,本說明書實施例還提供了對應於圖2的一種非揮發性電腦儲存媒體,儲存有電腦可執行指令,所述電腦可執行指令設置為:
獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係;
獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為;
根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
基於同樣的思路,本說明書實施例還提供了對應於圖3的一種非揮發性電腦儲存媒體,儲存有電腦可執行指令,所述電腦可執行指令設置為:
獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖;
將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用上述圖結構模型訓練方法訓練後的圖結構模型進行計算;
根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求顯示的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多工處理和並行處理也是可以的或者可能是有利的。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置、設備、非揮發性電腦儲存媒體實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書實施例提供的裝置、設備、非揮發性電腦儲存媒體與方法是對應的,因此,裝置、設備、非揮發性電腦儲存媒體也具有與對應方法類似的有益技術效果,由於上面已經對方法的有益技術效果進行了詳細說明,因此,這裡不再贅述對應裝置、設備、非揮發性電腦儲存媒體的有益技術效果。
在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都藉由將改進的方法流程程式設計到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可程式設計邏輯裝置(Programmable Logic Device, PLD)(例如現場可程式設計閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對裝置程式設計來確定。由設計人員自行程式設計來把一個數位系統“集成”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且,如今,取代手工地製作積體電路晶片,這種程式設計也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的程式設計語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯程式設計並程式設計到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。
控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)、可程式設計邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道,除了以純電腦可讀程式碼方式實現控制器以外,完全可以藉由將方法步驟進行邏輯程式設計來使得控制器以邏輯閘、開關、特殊應用積體電路、可程式設計邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。
上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的,電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。
為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本說明書時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。
本領域內的技術人員應明白,本說明書實施例可提供為方法、系統、或電腦程式產品。因此,本說明書實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體態樣的實施例的形式。而且,本說明書實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本說明書是參照根據本說明書實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理設備的處理器以產生一個機器,使得藉由電腦或其他可程式設計資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理設備上,使得在電腦或其他可程式設計設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括暫態電腦可讀媒體(transitory media),如調變的資料訊號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本說明書實施例可提供為方法、系統或電腦程式產品。因此,本說明書可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體態樣的實施例的形式。而且,本說明書可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本說明書可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式運算環境中實踐本說明書,在這些分散式運算環境中,由藉由通訊網路而被連接的遠端處理設備來執行任務。在分散式運算環境中,程式模組可以位於包括存放裝置在內的本地和遠端電腦儲存媒體中。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上所述僅為本說明書實施例而已,並不用於限制本發明。對於本領域技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本發明的申請專利範圍的範圍之內。
S202-S206‧‧‧步驟
S302-S306‧‧‧步驟
501‧‧‧第一獲取模組
502‧‧‧第二獲取模組
503‧‧‧訓練識別模組
601‧‧‧獲取模組
602‧‧‧輸入模組
603‧‧‧判定模組
為了更清楚地說明本說明書實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書中記載的一些實施例,對於本領域普通技術人員來講,在不付出進步性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本說明書的方案在一種實際應用場景下關於的一種整體架構示意圖;
圖2為本說明書實施例提供的一種圖結構模型訓練方法的流程示意圖;
圖3為本說明書實施例提供的一種垃圾帳戶識別方法的流程示意圖;
圖4為本說明書實施例提供的上述各方法的一種實施方案示意圖;
圖5為本說明書實施例提供的對應於圖2的一種圖結構模型訓練裝置的結構示意圖;
圖6為本說明書實施例提供的對應於圖3的一種垃圾帳戶識別裝置的結構示意圖;
圖7為本說明書實施例提供的對應於圖2的一種圖結構模型訓練設備的結構示意圖;
圖8為本說明書實施例提供的對應於圖3的一種垃圾帳戶識別設備的結構示意圖。

Claims (24)

  1. 一種圖結構模型訓練方法,包括: 獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係; 獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為; 根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
  2. 如申請專利範圍第1項所述的方法,所述媒介包括設備。
  3. 如申請專利範圍第1項所述的方法,所述圖結構模型用於根據所述節點的特徵資料,以及所述帳戶媒介網路圖中對應於所述節點的拓撲結構,計算隱特徵空間中所述節點多次迭代後的嵌入向量。
  4. 如申請專利範圍第3項所述的方法,所述圖結構模型還用於根據所述嵌入向量,計算所述節點的預測資料,所述預測資料表示所述節點對應於垃圾帳戶的可能性。
  5. 如申請專利範圍第1項所述的方法,所述獲取所述節點的特徵資料,具體包括: 獲取所述節點一定時間範圍內的登錄行為資料; 將所述一定時間範圍進行劃分,得到時間序列; 根據所述時間序列中所述登錄行為資料的分佈情況,生成特徵向量,作為所述節點的特徵資料。
  6. 如申請專利範圍第3項所述的方法,隱特徵空間中所述節點在第次迭代後的嵌入向量是根據所述節點的特徵資料、所述帳戶媒介網路圖中對應於所述節點的拓撲結構,以及隱特徵空間中所述節點在第次迭代後的嵌入向量計算得到的。
  7. 如申請專利範圍第4項所述的方法,所述根據所述節點的特徵資料,以及所述帳戶媒介網路圖中對應於所述節點的拓撲結構,計算隱特徵空間中所述節點多次迭代後的嵌入向量,具體包括: 按照如下公式,計算隱特徵空間中所述節點多次迭代後的嵌入向量:; 其中,表示隱特徵空間中至少一個所述節點在第次迭代後的嵌入向量,表示非線性變換函數,表示權重矩陣,表示所述至少一個所述節點的特徵資料,表示所述帳戶媒介網路圖中對應於所述至少一個所述節點的拓撲結構。
  8. 如申請專利範圍第7項所述的方法,所述根據所述嵌入向量,計算所述節點的預測資料,具體包括: 按照如下公式,計算所述節點的預測資料:; 其中,表示第個所述節點經過迭代後的預測資料,表示隱特徵空間中第個所述節點所述多次迭代後的嵌入向量,表示用於將分值化的參數向量,表示轉置運算。
  9. 如申請專利範圍第4項所述的方法,所述訓練預定義的圖結構模型,具體包括: 以所述預測資料與其對應的風險標注資料的一致性最大化為訓練目標,訓練預定義的圖結構模型。
  10. 如申請專利範圍第8項所述的方法,所述訓練預定義的圖結構模型,具體包括: 利用反向傳播演算法和所述風險標注資料,對進行最佳化,求得最優的; 其中,表示第個所述節點的風險標注資料,表示用於度量所述預測資料與其對應的風險標注資料的一致性差距的損失函數。
  11. 一種垃圾帳戶識別方法,包括: 獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖; 將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用如申請專利範圍第1至10項中任一項所述的方法訓練後的圖結構模型進行計算; 根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
  12. 一種圖結構模型訓練裝置,包括: 第一獲取模組,獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係; 第二獲取模組,獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為; 訓練識別模組,根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
  13. 如申請專利範圍第12項所述的裝置,所述媒介包括設備。
  14. 如申請專利範圍第12項所述的裝置,所述圖結構模型用於根據所述節點的特徵資料,以及所述帳戶媒介網路圖中對應於所述節點的拓撲結構,計算隱特徵空間中所述節點多次迭代後的嵌入向量。
  15. 如申請專利範圍第14項所述的裝置,所述圖結構模型還用於根據所述嵌入向量,計算所述節點的預測資料,所述預測資料表示所述節點對應於垃圾帳戶的可能性。
  16. 如申請專利範圍第12項所述的裝置,所述第二獲取模組獲取所述節點的特徵資料,具體包括: 所述第二獲取模組獲取所述節點一定時間範圍內的登錄行為資料; 將所述一定時間範圍進行劃分,得到時間序列; 根據所述時間序列中所述登錄行為資料的分佈情況,生成特徵向量,作為所述節點的特徵資料。
  17. 如申請專利範圍第14項所述的裝置,隱特徵空間中所述節點在第次迭代後的嵌入向量是根據所述節點的特徵資料、所述帳戶媒介網路圖中對應於所述節點的拓撲結構,以及隱特徵空間中所述節點在第次迭代後的嵌入向量計算得到的。
  18. 如申請專利範圍第15項所述的裝置,所述根據所述節點的特徵資料,以及所述帳戶媒介網路圖中對應於所述節點的拓撲結構,計算隱特徵空間中所述節點多次迭代後的嵌入向量,具體包括: 按照如下公式,計算隱特徵空間中所述節點多次迭代後的嵌入向量:; 其中,表示隱特徵空間中至少一個所述節點在第次迭代後的嵌入向量,表示非線性變換函數,表示權重矩陣,表示所述至少一個所述節點的特徵資料,表示所述帳戶媒介網路圖中對應於所述至少一個所述節點的拓撲結構。
  19. 如申請專利範圍第18項所述的裝置,所述根據所述嵌入向量,計算所述節點的預測資料,具體包括: 按照如下公式,計算所述節點的預測資料:; 其中,表示第個所述節點經過迭代後的預測資料,表示隱特徵空間中第個所述節點所述多次迭代後的嵌入向量,表示用於將分值化的參數向量,表示轉置運算。
  20. 如申請專利範圍第15項所述的裝置,所述訓練識別模組訓練預定義的圖結構模型,具體包括: 所述訓練識別模組以所述預測資料與其對應的風險標注資料的一致性最大化為訓練目標,訓練預定義的圖結構模型。
  21. 如申請專利範圍第19項所述的裝置,所述訓練識別模組訓練預定義的圖結構模型,具體包括: 所述訓練識別模組利用反向傳播演算法和所述風險標注資料,對進行最佳化,求得最優的; 其中,表示第個所述節點的風險標注資料,表示用於度量所述預測資料與其對應的風險標注資料的一致性差距的損失函數。
  22. 一種垃圾帳戶識別裝置,包括: 獲取模組,獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖; 輸入模組,將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用如申請專利範圍第1至10項中任一項所述的方法訓練後的圖結構模型進行計算; 判定模組,根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
  23. 一種圖結構模型訓練設備,包括: 至少一個處理器;以及, 與所述至少一個處理器通訊連接的記憶體;其中, 所述記憶體儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠: 獲取帳戶媒介網路圖,所述帳戶媒介網路圖中的節點表示帳戶和媒介,至少部分邊表示其連接的節點間具有登錄行為關係; 獲取所述節點的特徵資料和風險標注資料,所述特徵資料反映對應節點在時間序列上的登錄行為; 根據所述帳戶媒介網路圖、所述特徵資料和所述風險標注資料,訓練預定義的圖結構模型,用以識別垃圾帳戶。
  24. 一種垃圾帳戶識別設備,包括: 至少一個處理器;以及, 與所述至少一個處理器通訊連接的記憶體;其中, 所述記憶體儲存有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠: 獲取待識別帳戶的特徵資料,以及獲取所述待識別帳戶所屬的帳戶媒介網路圖; 將所述待識別帳戶的特徵資料,以及該帳戶媒介網路圖中對應於所述待識別帳戶的拓撲結構,輸入利用如申請專利範圍第1至10項中任一項所述的方法訓練後的圖結構模型進行計算; 根據所述訓練後的圖結構模型輸出的預測資料,判定所述待識別帳戶是否為垃圾帳戶。
TW107147678A 2018-03-14 2018-12-28 圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備 TWI690191B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
??201810209270.1 2018-03-14
CN201810209270.1A CN110278175B (zh) 2018-03-14 2018-03-14 图结构模型训练、垃圾账户识别方法、装置以及设备
CN201810209270.1 2018-03-14

Publications (2)

Publication Number Publication Date
TW201939917A true TW201939917A (zh) 2019-10-01
TWI690191B TWI690191B (zh) 2020-04-01

Family

ID=67907357

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107147678A TWI690191B (zh) 2018-03-14 2018-12-28 圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備

Country Status (6)

Country Link
US (1) US10917425B2 (zh)
EP (1) EP3703332B1 (zh)
CN (1) CN110278175B (zh)
SG (1) SG11202004182WA (zh)
TW (1) TWI690191B (zh)
WO (1) WO2019174393A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705629A (zh) * 2019-09-27 2020-01-17 北京市商汤科技开发有限公司 数据处理方法及相关装置
CN112861120A (zh) * 2019-11-27 2021-05-28 深信服科技股份有限公司 识别方法、设备及存储介质
CN111210279B (zh) * 2020-01-09 2022-08-16 支付宝(杭州)信息技术有限公司 一种目标用户预测方法、装置和电子设备
CN111311076B (zh) * 2020-01-20 2022-07-29 支付宝(杭州)信息技术有限公司 一种账户风险管理方法、装置、设备及介质
CN111340612B (zh) * 2020-02-25 2022-12-06 支付宝(杭州)信息技术有限公司 一种账户的风险识别方法、装置及电子设备
CN111340112B (zh) * 2020-02-26 2023-09-26 腾讯科技(深圳)有限公司 分类方法、装置、服务器
CN111382403A (zh) * 2020-03-17 2020-07-07 同盾控股有限公司 用户行为识别模型的训练方法、装置、设备及存储介质
CN111488494B (zh) * 2020-04-13 2023-08-25 中国工商银行股份有限公司 账户资金转账网络图着色方法及装置
CN111506895A (zh) * 2020-04-17 2020-08-07 支付宝(杭州)信息技术有限公司 一种应用登录图的构建方法及装置
CN113554438B (zh) * 2020-04-23 2023-12-05 北京京东振世信息技术有限公司 账号的识别方法、装置、电子设备及计算机可读介质
CN111612039B (zh) * 2020-04-24 2023-09-29 平安直通咨询有限公司上海分公司 异常用户识别的方法及装置、存储介质、电子设备
CN111639687B (zh) * 2020-05-19 2024-03-01 北京三快在线科技有限公司 一种模型训练以及异常账号识别方法及装置
CN114201655B (zh) * 2020-09-02 2023-08-25 腾讯科技(深圳)有限公司 账号分类方法、装置、设备及存储介质
CN111915381A (zh) * 2020-09-14 2020-11-10 北京嘀嘀无限科技发展有限公司 检测作弊行为的方法、装置、电子设备和存储介质
CN114338416B (zh) * 2020-09-29 2023-04-07 中国移动通信有限公司研究院 一种时空多指标预测方法、装置和存储介质
CN112699217B (zh) * 2020-12-29 2023-04-18 西安九索数据技术股份有限公司 一种基于用户文本数据和通讯数据的行为异常用户识别方法
CN112929348B (zh) * 2021-01-25 2022-11-25 北京字节跳动网络技术有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN112861140B (zh) * 2021-01-26 2024-03-22 上海德启信息科技有限公司 一种业务数据的处理方法及装置、可读存储介质
CN112818257B (zh) * 2021-02-19 2022-09-02 北京邮电大学 基于图神经网络的账户检测方法、装置和设备
CN113283925B (zh) * 2021-04-13 2022-08-02 支付宝(杭州)信息技术有限公司 网络实验分流、节点关系预测方法、装置以及设备
CN113935407A (zh) * 2021-09-29 2022-01-14 光大科技有限公司 一种异常行为识别模型确定方法及装置
CN115018280A (zh) * 2022-05-24 2022-09-06 支付宝(杭州)信息技术有限公司 风险图模式的挖掘方法、风险识别方法及对应装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411701B1 (en) * 1996-11-22 2002-06-25 Siemens Aktiengesellschaft Method and system of dynamic traffic control in a communication network
CN103577991B (zh) * 2012-08-03 2019-03-19 阿里巴巴集团控股有限公司 一种用户的识别方法和装置
CN102946331B (zh) * 2012-10-10 2016-01-20 北京交通大学 一种社交网络僵尸用户检测方法及装置
CN103778151B (zh) * 2012-10-23 2017-06-09 阿里巴巴集团控股有限公司 一种识别特征群体的方法及装置和搜索方法及装置
CN103294833B (zh) * 2012-11-02 2016-12-28 中国人民解放军国防科学技术大学 基于用户的关注关系的垃圾用户发现方法
US10009358B1 (en) * 2014-02-11 2018-06-26 DataVisor Inc. Graph based framework for detecting malicious or compromised accounts
US9396332B2 (en) * 2014-05-21 2016-07-19 Microsoft Technology Licensing, Llc Risk assessment modeling
CN104090961B (zh) * 2014-07-14 2017-07-04 福州大学 一种基于机器学习的社交网络垃圾用户过滤方法
CN104318268B (zh) * 2014-11-11 2017-09-08 苏州晨川通信科技有限公司 一种基于局部距离度量学习的多交易账户识别方法
CN104615658B (zh) * 2014-12-31 2018-01-16 中国科学院深圳先进技术研究院 一种确定用户身份的方法
CN106355405A (zh) * 2015-07-14 2017-01-25 阿里巴巴集团控股有限公司 风险识别方法、装置及风险防控系统
CN106503562A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN105279086B (zh) * 2015-10-16 2018-01-19 山东大学 一种基于流程图的自动检测电子商务网站逻辑漏洞的方法
CN106803178B (zh) * 2015-11-26 2020-09-18 阿里巴巴集团控股有限公司 一种处理实体的方法和设备
WO2017223522A1 (en) * 2016-06-23 2017-12-28 Mohammad Shami Neural network systems and methods for generating distributed representations of electronic transaction information
CN107066616B (zh) * 2017-05-09 2020-12-22 京东数字科技控股有限公司 用于账号处理的方法、装置及电子设备
CN107153847A (zh) * 2017-05-31 2017-09-12 北京知道创宇信息技术有限公司 预测用户是否存在恶意行为的方法和计算设备
US10505954B2 (en) * 2017-06-14 2019-12-10 Microsoft Technology Licensing, Llc Detecting malicious lateral movement across a computer network
CN107633263A (zh) * 2017-08-30 2018-01-26 清华大学 基于边的网络图嵌入方法

Also Published As

Publication number Publication date
US20200287926A1 (en) 2020-09-10
TWI690191B (zh) 2020-04-01
CN110278175A (zh) 2019-09-24
EP3703332A1 (en) 2020-09-02
WO2019174393A1 (zh) 2019-09-19
CN110278175B (zh) 2020-06-02
SG11202004182WA (en) 2020-06-29
EP3703332A4 (en) 2020-12-16
EP3703332B1 (en) 2021-11-10
US10917425B2 (en) 2021-02-09

Similar Documents

Publication Publication Date Title
TWI690191B (zh) 圖結構模型訓練、垃圾帳戶識別方法、裝置以及設備
TWI682304B (zh) 基於圖結構模型的異常帳號防控方法、裝置以及設備
TWI715879B (zh) 一種基於圖結構模型的交易風險控制方法、裝置以及設備
US11537852B2 (en) Evolving graph convolutional networks for dynamic graphs
Koochali et al. Probabilistic forecasting of sensory data with generative adversarial networks–forgan
US11157782B2 (en) Anomaly detection in multidimensional time series data
CN110363449B (zh) 一种风险识别方法、装置及系统
CN108418825B (zh) 风险模型训练、垃圾账号检测方法、装置以及设备
TWI718422B (zh) 對模型預測值進行融合的方法、裝置和設備
TW201923624A (zh) 一種資料樣本標籤處理方法及裝置
CN110119860B (zh) 一种垃圾账号检测方法、装置以及设备
US11531780B2 (en) Deep learning-based identity fraud detection
JP2019525309A (ja) データリスクを制御する方法及び装置
US9225738B1 (en) Markov behavior scoring
US11416760B2 (en) Machine learning based user interface controller
WO2020155831A1 (zh) 数据标签生成、模型训练、事件识别方法和装置
US20220147547A1 (en) Analogy based recognition
US20220101120A1 (en) Interpretable visualization system for graph neural network
US11095528B2 (en) Identity network onboarding based on confidence scores
US11551817B2 (en) Assessing unreliability of clinical risk prediction
US9514256B1 (en) Method and system for modelling turbulent flows in an advection-diffusion process
US20210056457A1 (en) Hyper-parameter management
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
CN109657153A (zh) 一种用于确定用户的关联财经信息的方法与设备
US11012463B2 (en) Predicting condition of a host for cybersecurity applications