TWI732226B - 分類模型生成方法及裝置、資料識別方法及裝置 - Google Patents

分類模型生成方法及裝置、資料識別方法及裝置 Download PDF

Info

Publication number
TWI732226B
TWI732226B TW108120056A TW108120056A TWI732226B TW I732226 B TWI732226 B TW I732226B TW 108120056 A TW108120056 A TW 108120056A TW 108120056 A TW108120056 A TW 108120056A TW I732226 B TWI732226 B TW I732226B
Authority
TW
Taiwan
Prior art keywords
same
node
relationship network
device relationship
network
Prior art date
Application number
TW108120056A
Other languages
English (en)
Other versions
TW202009788A (zh
Inventor
鄭毅
張鵬
潘健民
Original Assignee
開曼群島商創新先進技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 開曼群島商創新先進技術有限公司 filed Critical 開曼群島商創新先進技術有限公司
Publication of TW202009788A publication Critical patent/TW202009788A/zh
Application granted granted Critical
Publication of TWI732226B publication Critical patent/TWI732226B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申請提供的一種分類模型生成方法及裝置、一種資料識別方法及裝置,其中,所述資料識別方法包括獲取待識別資料集;構建所述至少兩個待識別資料的第二關係網路,透過所述第二關係網路的節點表徵所述至少兩個待識別資料;基於預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示;根據預先訓練的分類模型確定所述第二關係網路中每個節點的向量化表示對應的資料標籤。

Description

分類模型生成方法及裝置、資料識別方法及裝置
本申請涉及計算機資料安全技術領域,特別涉及一種分類模型生成方法及裝置、一種資料識別方法及裝置、一種計算設備及計算機儲存媒體。
現下反洗錢行業對於犯罪等可疑交易識別的做法,主要透過人工設計業務特徵,完成規則模型的構造。其中,傳統的關係網路資料(例如資金網路、同設備網路等)特徵,基本都是透過人工構造獲得的。例如,構造網路節點或邊上的統計量來刻畫節點的子圖模式。該類特徵對於節點類別的區分判別,並沒有起到很好的效果。同時,該類基於統計量的特徵只能刻畫節點局部(一跳)關係內子圖的模式,對於多跳關係的子圖,無法完整表示,有效儲存資訊會缺失。
有鑑於此,本申請實施例提供了一種分類模型生成方法及裝置、一種資料識別方法及裝置、一種計算設備及計算機儲存媒體,以解決現有技術中存在的技術缺陷。 本申請實施例公開了一種分類模型生成方法,包括: 獲取訓練樣本資料集,其中,所述訓練樣本資料集中包括至少兩個樣本資料以及每個所述樣本資料對應的樣本標籤; 構建所述至少兩個樣本資料的第一關係網路,透過所述第一關係網路的節點表徵所述至少兩個樣本資料; 基於預設的網路嵌入學習模型獲得所述第一關係網路中每個節點的向量化表示; 透過所述訓練樣本資料集對分類模型進行訓練,得到所述分類模型,所述分類模型使得所述樣本標籤與所述第一關係網路中每個節點的向量化表示相關聯。 另一方面,本申請實施例還提供了一種資料識別方法,包括: 獲取待識別資料集,其中,所述待識別資料集包括至少兩個待識別資料; 構建所述至少兩個待識別資料的第二關係網路,透過所述第二關係網路的節點表徵所述至少兩個待識別資料; 基於預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示; 根據預先訓練的分類模型確定所述第二關係網路中每個節點的向量化表示對應的資料標籤。 另一方面,本申請實施例還提供了一種分類模型生成裝置,包括: 第一獲取模組,被配置為獲取訓練樣本資料集,其中,所述訓練樣本資料集中包括至少兩個樣本資料以及每個所述樣本資料對應的樣本標籤; 第一構建模組,被配置為構建所述至少兩個樣本資料的第一關係網路,透過所述第一關係網路的節點表徵所述至少兩個樣本資料; 第一學習模組,被配置為基於預設的網路嵌入學習模型獲得所述第一關係網路中每個節點的向量化表示; 訓練模組,被配置為透過所述訓練樣本資料集對分類模型進行訓練,得到所述分類模型,所述分類模型使得所述樣本標籤與所述第一關係網路中每個節點的向量化表示相關聯。 另一方面,本申請實施例還提供了一種資料識別裝置,包括: 第二獲取模組,被配置為獲取待識別資料集,其中,所述待識別資料集包括至少兩個待識別資料; 第二構建模組,被配置為構建所述至少兩個待識別資料的第二關係網路,透過所述第二關係網路的節點表徵所述至少兩個待識別資料; 第三學習模組,被配置為基於預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示; 識別模組,被配置為根據預先訓練的分類模型確定所述第二關係網路中每個節點的向量化表示對應的資料標籤。 另一方面,本申請還提供了一種計算設備,包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的計算機指令,所述處理器執行時實現所述分類模型生成方法或所述資料識別方法的步驟。 另一方面,本申請還提供了一種計算機可讀儲存媒體,其儲存有計算機指令,該程式被處理器執行時實現所述分類模型生成方法或所述資料識別方法的步驟。 本申請提供的一種分類模型生成方法及裝置、一種資料識別方法及裝置,其中,所述資料識別方法包括獲取待識別資料集;構建所述至少兩個待識別資料的第二關係網路,透過所述第二關係網路的節點表徵所述至少兩個待識別資料;基於預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示;根據預先訓練的分類模型確定所述第二關係網路中每個節點的向量化表示對應的資料標籤。
在下面的描述中闡述了很多具體細節以便於充分理解本申請。但是本申請能夠以很多不同於在此描述的其它方式來實施,本領域技術人員可以在不違背本申請內涵的情況下做類似推廣,因此本申請不受下面公開的具體實施的限制。 在本說明書一個或多個實施例中使用的術語是僅僅出於描述特定實施例的目的,而非旨在限制本說明書一個或多個實施例。在本說明書一個或多個實施例和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本說明書一個或多個實施例中使用的術語“及/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。 應當理解,儘管在本說明書一個或多個實施例中可能採用術語第一、第二等來描述各種儲存資訊,但這些儲存資訊不應限於這些術語。這些術語僅用來將同一類型的儲存資訊彼此區分開。例如,在不脫離本說明書一個或多個實施例範圍的情況下,第一也可以被稱為第二,類似地,第二也可以被稱為第一。取決於語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“反應於確定”。 首先,對本發明一個或多個實施例涉及的名詞術語進行解釋。 反洗錢:指金融機構通過流程、規則或模型等方式控制系統內的洗錢風險。 Node2vec:一種關係網路節點向量化的方法,基於Word2vec模型。 在本說明書一個或多個實施例中,提供了一種分類模型生成方法及裝置、一種資料識別方法及裝置、一種計算設備及計算機儲存媒體,在下面的實施例中逐一進行詳細說明。 參見圖1,本說明書一個實施例提供了一種計算設備100的結構方塊圖。該計算設備100的部件包括但不限於儲存器110、處理器120和通信介面140。所述處理器120與所述儲存器110透過匯流排130相連接,資料庫150用於保存訓練樣本資料集或待識別資料集,網路160用於生成分類模型,並與所述計算設備100透過通信介面140通信連接。 所述通信介面140使得計算設備100能夠經由一個或多個網路通信。這些網路的示例包括區域網(LAN)、廣域網(WAN)、個域網(PAN)或諸如因特網的通信網路的組合。網路介面可以包括有線或無線的任何類型的網路介面(例如,網路介面卡(NIC))中的一個或多個,諸如IEEE802.11無線區域網(WLAN)無線介面、全球微波互聯接入(Wi-MAX)介面、以太網介面、通用串列匯流排(USB)介面、蜂巢式網路介面、藍牙介面、近場通信(NFC)介面,等等。 所述儲存器110,被配置為儲存通信介面140透過匯流排130發送的訓練樣本資料集或待識別資料集以及儲存在儲存器110上並可在處理器120上運行的計算機指令。 所述處理器120,被配置為獲取儲存在儲存器110的訓練樣本資料集或待識別資料集後,執行儲存在儲存器110上的計算機指令,實現對所述分類模型的生成以及資料的識別。 所述計算設備100可以是任何類型的靜止或行動計算設備,包括行動計算機或行動計算設備(例如,平板計算機、個人數位助理、膝上型計算機、筆記本計算機、輕省筆電等)、行動電話(例如,智慧手機)、可佩戴的計算設備(例如,智慧手錶、智慧眼鏡等)或其他類型的行動設備,或者諸如台式計算機或PC的靜止計算設備。 其中,處理器120可以執行圖2所示方法中的步驟。圖2是示出了說明書一個實施例提供的分類模型生成方法的示意性流程圖,包括步驟202至步驟208。 步驟202:獲取訓練樣本資料集,其中,所述訓練樣本資料集中包括至少兩個樣本資料以及每個所述樣本資料對應的樣本標籤。 本說明書一個或多個實施例中,所述樣本資料包括但不限於白樣本資料和黑樣本資料;所述樣本標籤包括但不限於白樣本標籤和黑樣本標籤。 實際應用中,所述白樣本資料以及對應的白樣本標籤和所述黑樣本資料以及對應的黑樣本標籤結合在一起就構成了訓練樣本資料集。 將該分類模型生成方法應用在反洗錢犯罪識別領域,所述黑樣本資料可以為存在洗錢行為的非法帳戶,所述白樣本資料可以為不存在洗錢行為的合法帳戶;所述黑樣本資料可以透過外部輿情獲取或者是透過專家經驗設計業務特徵獲取,所述白樣本資料可以透過在所有的樣本中排除掉已知的黑樣本資料之後獲取。 實際應用中,白樣本資料的數量會遠遠大於黑樣本資料的數量,為了避免白樣本資料數量過多造成訓練樣本資料集中的樣本資料不均衡,將白樣本資料和黑樣本資料的比例控制在10:1~100:1之間,因此所述白樣本資料可以透過下採樣獲取。白樣本資料和黑樣本資料採用上述比例關係,可以避免導致分類模型出現過擬合,降低分類模型學習能力的負面效果的情況發生。 步驟204:構建所述至少兩個樣本資料的第一關係網路,透過所述第一關係網路的節點表徵所述至少兩個樣本資料。 本說明書一個或多個實施例中,所述第一關係網路由一系列的節點和關係構成,節點之間會存在彼此互動等,所以節點之間出現了關係,並由此衍生出關係構建。 本說明書一個或多個實施例中,所述至少兩個樣本資料代表著所述第一關係網路的節點,所述至少兩個樣本資料之間的關係代表著節點之間的互動。 以所述第一關係網路為靜態資金關係網路為例,對構建所述至少兩個樣本資料的第一關係網路進行詳細說明。 例如所述至少兩個樣本為獲取的90天的進行過資金交易的帳戶,然後對所有的帳戶之間的資金交易情況進行匯總,若所述靜態資金關係網路為有向圖或有權圖,則最終的靜態資金關係網路呈現出三元組的形式,即:U、V、W,分別表示U到V存在權重為W的有向邊,在所述靜態資金關係網路對應業務場景中表示為:帳戶U支付給帳戶V金額W元。相應的,若所述第一關係網路為無向圖或無權圖的同設備關係網路,在所述同設備關係網路對應的業務場景中表示:帳戶U和帳戶V均採用同一設備進行資金交易,因此無需添加V到U的邊,且W均設置為1即可。 步驟206:基於預設的網路嵌入學習模型獲得所述第一關係網路中每個節點的向量化表示。 參見圖3,本說明書一個或多個實施例中,基於預設的網路嵌入學習模型獲得所述第一關係網路中每個節點的向量化表示包括步驟302至步驟304。 步驟302:採用隨機遊走算法對所述第一關係網路中每個節點進行序列採樣,並生成第一節點序列。 步驟304:基於預設的網路嵌入學習模型將所述第一節點序列中的每個節點進行向量化表示。 本說明書一個或多個實施例中,基於預設的網路嵌入學習模型將所述第一節點序列中的每個節點進行向量化表示包括: 基於Node2vec網路嵌入學習模型將所述第一節點序列中的每個節點進行向量化表示;或者 基於DeepWalk網路嵌入學習模型將所述第一節點序列中的每個節點進行向量化表示。 其中,基於Node2vec網路嵌入學習模型將所述第一節點序列中的每個節點進行向量化表示包括: 所述Node2vec網路嵌入學習模型基於Word2vec的SkipGram框架將所述節點序列中的每個節點進行向量化表示。 本說明書一個或多個實施例中,基於Node2vec網路嵌入學習模型,採取random walk隨機遊走算法將構建的第一關係網路中的每個節點轉化為採樣後的節點序列,再進一步的基於Word2vec模型中的SkipGram框架,對採樣的節點序列進行概率學習和推斷,最終獲得第一關係網路中每個節點向量化表示。透過網路嵌入學習獲得的節點向量化表示,可以豐富節點之間的關係,提高分類模型的處理速率和效果。 參見圖4,左邊為由13個節點以及各節點之間的關係構成的邊構建的關係網路結構圖,將所述關係網路結構圖基於網路嵌入學習模型進行計算後獲得右邊的所述關係網路結構圖中13個節點中每個節點的向量化表示,即將所述關係網路結構透過一系列過程變成一個多維向量,透過這樣一層轉化,能夠將複雜的關係網路儲存資訊變成結構化的多維特徵,從而可以利用機器學習方法實現更方便的算法應用。 步驟208:透過所述訓練樣本資料集對分類模型進行訓練,得到所述分類模型,所述分類模型使得所述樣本標籤與所述第一關係網路中每個節點的向量化表示相關聯。 本說明書一個或多個實施例中,所述分類模型包括XGBoost模型、隨機森林模型、支持向量機模型SVM(Support Vector Machine)或邏輯回歸模型(Logistic Regression,LR)。 本說明書一個或多個實施例中,還可以按照預設時間間隔獲取訓練樣本資料集,透過這種定期收集訓練樣本資料集、訓練分類模型的方式,可以自適應的發現新特徵,持續保證分類模型的有效性。 所述預設時間間隔可以根據實際需求進行設定,比如設置為每隔一周、一個月或者三個月獲取一次均可,本申請對此不作任何限定。 本說明書一個或多個實施例中,所述分類模型生成方法只要按照預設的時間間隔定期收集資料樣本,分類模型就可以自適應的學習第一關係網路特徵,透過網路嵌入學習模型獲取所述第一關係網路中每個節點的向量化表示,達到訓練分類模型的目的,這樣既能提高工作效率,又能根據所述第一關係網路中每個節點的向量化表示完整描述每個節點在第一關係網路中網路特徵模式。同時透過定期收集資料樣本,還可以避免訓練樣本資料集失效的問題。 參見圖5,本說明書一實施例提供了一種分類模型生成方法的示意性流程圖,包括步驟502至步驟514。 步驟502:獲取黑樣本資料以及對應的黑樣本標籤。 步驟504:獲取白樣本資料以及對應的白樣本標籤。 步驟506:將所述黑樣本資料以及對應的黑樣本標籤和所述白樣本資料以及對應的白樣本標籤結合形成訓練樣本資料集。 步驟508:構建所述黑樣本資料和所述白樣本資料的關係網路,透過所述關係網路的節點表徵所述黑樣本資料和所述白樣本資料。 步驟510:基於Node2vec網路嵌入學習模型獲得所述關係網路中每個節點的向量化表示。 步驟512:基於所述訓練樣本資料集對分類模型進行訓練; 步驟514:得到所述分類模型。 本說明書一個或多個實施例中,所述分類模型生成方法只要收集黑白資料樣本,然後透過黑白樣本資料構建關係網路特徵,透過網路嵌入學習模型獲取所述系網路中每個節點的向量化表示,達到訓練分類模型的目的,這樣既能提高工作效率,又能根據所述關係網路中每個節點的向量化表示完整描述每個節點在關係網路中網路特徵模式。 參見圖6,本說明書一實施例提供了一種資料識別方法的示意性流程圖,包括步驟602至步驟608。 步驟602:獲取待識別資料集,其中,所述待識別資料集包括至少兩個待識別資料。 本說明書一個或多個實施例中,所述待識別資料集包括透過上述分類模型判斷是否存在洗錢行為的待識別帳戶的集合。 步驟604:構建所述至少兩個待識別資料的第二關係網路,透過所述第二關係網路的節點表徵所述至少兩個待識別資料。 本說明書一個或多個實施例中,步驟604與上述實施例中步驟204的操作方式相同,在此不在贅述。 步驟606:基於預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示。 本說明書一個或多個實施例中,基於預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示包括: 採用隨機遊走算法對所述第二關係網路中每個節點進行序列採樣,並生成第二節點序列; 根據預設的網路嵌入學習模型將所述第二節點序列中的每個節點進行向量化表示。 本說明書一個或多個實施例中,根據預設的網路嵌入學習模型將所述第二節點序列中的每個節點進行向量化表示包括: 基於Node2vec網路嵌入學習模型將所述第二節點序列中的每個節點進行向量化表示;或者 基於DeepWalk網路嵌入學習模型將所述第二節點序列中的每個節點進行向量化表示。 其中,基於Node2vec網路嵌入學習模型將所述第二節點序列中的每個節點進行向量化表示包括: 所述Node2vec網路嵌入學習模型基於Word2vec的SkipGram框架將所述第二節點序列中的每個節點進行向量化表示。 本說明書一個或多個實施例中,將第二關係網路作為輸入,透過預設的網路嵌入學習模型進行學習,得到所述第二關係網路中的每個節點的向量化表示。 以所述預設的網路嵌入學習模型包括Node2vec網路嵌入學習模型為例,對透過網路嵌入學習模型得到所述第二關係網路中的每個節點的向量化表示進行詳細的說明。 第一步:基於第二關係網路結構,計算第二關係網路中每條邊的轉移概率,獲得第二關係網路的轉移概率圖。 例如,第二關係網路有節點U、節點V和節點K,其中出邊(有向圖)權重之和為Z,每條出邊的轉移概率為:P(V) = W(U,V) / Z,其中W(U,V)表示節點U到節點V的邊權重。透過上述方式即可獲得第二關係網路的轉移概率圖。 第二步:基於第二關係網路的轉移概率圖隨機游走生成第二關係網路中的每個節點的節點序列。 本說明書一個或多個實施例中,隨機遊走構造出第二關係網路中的每個節點的節點序列應當滿足如下約束條件:假定當前節點V,上一次隨機遊走節點為U,V的鄰居節點K,如果K和U的最短路徑距離為0,則轉移概率為W(U,V) / Z / p,其中p為模型參數;如果K和U的最短路徑距離為1,則轉移概率為W(U,V) / Z;如果K和U的最短路徑距離為2,則轉移概率為W(U,V) / Z / q,其中q為模型參數。重複以上隨機轉移過程並滿足以上約束條件,直到序列長度達到指定參數MAX_LEN停止,其中MAX_LEN為模型參數。 第三步:所述Node2vec網路嵌入學習模型基於Word2vec的SkipGram框架將所述節點序列中的每個節點進行向量化表示。 本說明書一個或多個實施例中,使用Word2vec的SkipGram框架採用隨機梯度下降法進行模型的優化學習,最終獲得第二關係網路中每個節點的向量化表示。 步驟608:根據預先訓練的分類模型確定所述第二關係網路中每個節點的向量化表示對應的資料標籤。 本說明書一個或多個實施例中,所述資料標籤包括白資料標籤和黑資料標籤。 實際應用中,所述白資料標籤對應的為不存在洗錢行為的合法帳戶,所述黑樣本資料標籤對應的為存在洗錢行為的非法帳戶。若所述第二關係網路中每個節點的向量化表示對應的資料標籤為白樣本資料標籤,則該節點的向量化表示對應的待識別資料為合法帳戶;若所述第二關係網路中每個節點的向量化表示對應的資料標籤為黑樣本資料標籤,則該節點的向量化表示對應的待識別資料為非法帳戶。 本說明書一個或多個實施例中,若所述資料標籤為黑資料標籤,則對所述資料標籤對應的所述第二關係網路中節點的向量化表示進行後續處理。 所述後續處理包括但不限於進行帳戶資金流轉追溯或者是帳戶對應的真實用戶的詳細身份查詢以及登錄儲存資訊查詢,本申請對此不作任何限定。 本說明書一個或多個實施例中,所述資料識別方法透過根據待識別資料集構建第二關係網路,可以較為完整的描述該第二關係網路的局部子圖模式,然後根據預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示,透過預先訓練的分類模型快速的確定所述第二關係網路中每個節點的向量化表示對應的資料標籤,實現對待識別資料的快速識別。 參見圖7,本說明書一實施例提供了一種資料識別方法的示意性流程圖,包括步驟702至步驟710。 步驟702:獲取至少兩個待識別帳戶。 步驟704:將所述兩個待識別帳戶形成待識別帳戶集。 步驟706:構建所述待識別帳戶集的關係網路,透過所述關係網路的節點表徵所述待識別帳戶集。 步驟708:基於Node2vec網路嵌入學習模型獲得所述關係網路中每個節點的向量化表示。 步驟710:根據預先訓練的分類模型確定所述關係網路中每個節點的向量化表示對應的帳戶標籤。 本說明書一個或多個實施例中,將該方法應用在反洗錢領域,使用關係網路這類原始儲存資訊作為輸入,透過網路嵌入學習模型及預先訓練的分類模型,實現對犯罪行為帳戶的快速識別。 參見圖8,本說明書一實施例提供了一種分類模型生成裝置,包括: 第一獲取模組802,被配置為獲取訓練樣本資料集,其中,所述訓練樣本資料集中包括至少兩個樣本資料以及每個所述樣本資料對應的樣本標籤; 第一構建模組804,被配置為構建所述至少兩個樣本資料的第一關係網路,透過所述第一關係網路的節點表徵所述至少兩個樣本資料; 第一學習模組806,被配置為基於預設的網路嵌入學習模型獲得所述第一關係網路中每個節點的向量化表示; 訓練模組808,被配置為透過所述訓練樣本資料集對分類模型進行訓練,得到所述分類模型,所述分類模型使得所述樣本標籤與所述第一關係網路中每個節點的向量化表示相關聯。 可選地,所述第一學習模組806包括: 第一生成子模組,被配置為採用隨機遊走算法對所述第一關係網路中每個節點進行序列採樣,並生成第一節點序列; 第二學習子模組,被配置為基於預設的網路嵌入學習模型將所述第一節點序列中的每個節點進行向量化表示。 本說明書一個或多個實施例中,所述分類模型生成裝置只要按照預設的時間間隔定期收集資料樣本,分類模型就可以自適應的學習第一關係網路特徵,透過網路嵌入學習模型獲取所述第一關係網路中每個節點的向量化表示,達到訓練分類模型的目的,這樣既能提高工作效率,又能根據所述第一關係網路中每個節點的向量化表示完整描述每個節點在第一關係網路中網路特徵模式。同時透過定期收集資料樣本,還可以避免訓練樣本資料集失效的問題。 參見圖9,本說明書一實施例提供了一種資料識別裝置,包括: 第二獲取模組902,被配置為獲取待識別資料集,其中,所述待識別資料集包括至少兩個待識別資料; 第二構建模組904,被配置為構建所述至少兩個待識別資料的第二關係網路,透過所述第二關係網路的節點表徵所述至少兩個待識別資料; 第三學習模組906,被配置為基於預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示; 識別模組908,被配置為根據預先訓練的分類模型確定所述第二關係網路中每個節點的向量化表示對應的資料標籤。 可選地,所述第三學習模組906包括: 第二生成子模組,被配置為採用隨機遊走算法對所述第二關係網路中每個節點進行序列採樣,並生成第二節點序列; 第四學習子模組,被配置為根據預設的網路嵌入學習模型將所述第二節點序列中的每個節點進行向量化表示。 本說明書一個或多個實施例中,所述資料識別裝置透過根據待識別資料集構建第二關係網路,可以較為完整的描述該第二關係網路的局部子圖模式,然後根據預設的網路嵌入學習模型獲得所述第二關係網路中每個節點的向量化表示,透過預先訓練的分類模型快速的確定所述第二關係網路中每個節點的向量化表示對應的資料標籤,實現對待識別資料的快速識別。 本說明書一個或多個實施例中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。 本申請一實施例還提供一種計算機可讀儲存媒體,其儲存有計算機指令,該指令被處理器執行時實現所述分類模型生成方法的步驟。 上述為本實施例的一種計算機可讀儲存媒體的示意性方案。需要說明的是,該儲存媒體的技術方案與上述的分類模型生成方法的技術方案屬於同一構思,儲存媒體的技術方案未詳細描述的細節內容,均可以參見上述分類模型生成方法的技術方案的描述。 本申請一實施例還提供一種計算機可讀儲存媒體,其儲存有計算機指令,該指令被處理器執行時實現所述資料識別方法的步驟。 上述為本實施例的一種計算機可讀儲存媒體的示意性方案。需要說明的是,該儲存媒體的技術方案與上述的資料識別方法的技術方案屬於同一構思,儲存媒體的技術方案未詳細描述的細節內容,均可以參見上述資料識別方法的技術方案的描述。 上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在附圖中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多任務處理和並行處理也是可以的或者可能是有利的。 本申請實施例中所述支付涉及的技術載體,例如可以包括近場通信(Near Field Communication,NFC)、WIFI、3G/4G/5G、POS機刷卡技術、二維碼掃碼技術、條形碼掃碼技術、藍牙、紅外、短訊息(Short Message Service,SMS)、多媒體訊息(Multimedia Message Service,MMS)等。 所述計算機指令包括計算機指令代碼,所述計算機指令代碼可以為源代碼形式、對象代碼形式、可執行文件或某些中間形式等。所述計算機可讀媒體可以包括:能夠攜帶所述計算機指令代碼的任何實體或裝置、記錄媒體、U碟、行動硬碟、磁碟、光碟、計算機儲存器、唯讀記憶體(ROM,Read-Only Memory)、隨機存取記憶體(RAM,Random Access Memory)、電載波信號、電信信號以及軟體分發媒體等。需要說明的是,所述計算機可讀媒體包含的內容可以根據司法管轄區內立法和專利實踐的要求進行適當的增減,例如在某些司法管轄區,根據立法和專利實踐,計算機可讀媒體不包括電載波信號和電信信號。 需要說明的是,對於前述的各方法實施例,為了簡便描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請並不受所描述的動作順序的限制,因為依據本申請,某些步驟可以採用其它順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模組並不一定都是本申請所必須的。 在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其它實施例的相關描述。 以上公開的本申請優選實施例只是用於幫助闡述本申請。可選實施例並沒有詳盡敘述所有的細節,也不限制該發明僅為所述的具體實施方式。顯然,根據本說明書的內容,可作很多的修改和變化。本說明書選取並具體描述這些實施例,是為了更好地解釋本申請的原理和實際應用,從而使所屬技術領域技術人員能很好地理解和利用本申請。本申請僅受申請專利範圍及其全部範圍和等效物的限制。
100‧‧‧計算設備 110‧‧‧儲存器 120‧‧‧處理器 130‧‧‧匯流排 140‧‧‧通信介面 150‧‧‧資料庫 160‧‧‧網路 802‧‧‧第一獲取模組 804‧‧‧第一構建模組 806‧‧‧第一學習模組 808‧‧‧訓練模組 902‧‧‧第二獲取模組 904‧‧‧第二構建模組 906‧‧‧第三學習模組 908‧‧‧識別模組
圖1為本說明書一實施例提供的一種計算設備的結構示意圖; 圖2為本說明書一實施例提供的一種分類模型生成方法的流程圖; 圖3為本說明書一實施例提供的一種分類模型生成方法的流程圖; 圖4為本說明書一實施例提供的一種分類模型生成方法的流程圖; 圖5為本說明書一實施例提供的關係網路結構圖以及關係網路結構圖中每個節點的向量化表示示意圖; 圖6為本說明書一實施例提供的一種資料識別方法的流程圖; 圖7為本說明書一實施例提供的一種資料識別方法的流程圖; 圖8為本說明書一實施例提供的一種分類模型生成裝置的結構示意圖; 圖9為本說明書一實施例提供的一種資料識別裝置的結構示意圖。

Claims (10)

  1. 一種分類模型生成方法,包括:獲取預訓練帳戶分類模型的訓練樣本資料集,其中,該訓練樣本資料集中包括至少兩個帳戶以及每個帳戶對應的分類樣本標籤;構建該至少兩個帳戶的第一同設備關係網路,透過該第一同設備關係網路的節點表徵該至少兩個帳戶;其中,該至少兩個帳戶在互動過程中所使用的設備相同;基於該第一同設備關係網路結構,計算該第一同設備關係網路中每條邊的轉移概率,獲得該第一同設備關係網路的轉移概率圖;基於該第一同設備關係網路的轉移概率圖隨機遊走生成該第一同設備關係網路中的每個節點的節點序列;基於Word2vec的SkipGram框架將該節點序列中的每個節點進行向量化表示;透過該訓練樣本資料集對該預訓練帳戶分類模型進行訓練,得到帳戶分類模型,該帳戶分類模型使得該分類樣本標籤與該第一同設備關係網路中每個節點的向量化表示相關聯。
  2. 根據申請專利範圍第1項所述的方法,該分類模型包括XGBoost模型、隨機森林模型、支持向量機模型或邏輯回歸模型。
  3. 一種資料識別方法,包括:獲取待識別資料集,其中,該待識別資料集包括至少兩個待識別帳戶;構建該至少兩個待識別帳戶的第二同設備關係網路,透過該第二同設備關係網路的節點表徵該至少兩個待識別帳戶;基於第二同設備關係網路結構,計算第二同設備關係網路中每條邊的轉移概率,獲得第二同設備關係網路的轉移概率圖;基於該第二同設備關係網路的轉移概率圖隨機遊走生成第二同設備關係網路中的每個節點的節點序列;基於Word2vec的SkipGram框架將該節點序列中的每個節點進行向量化表示;根據預先訓練的帳戶分類模型,確定該第二同設備關係網路中每個節點的向量化表示對應的待識別帳戶的分類識別結果。
  4. 根據申請專利範圍第3項所述的方法,該資料標籤包括白資料標籤和黑資料標籤。
  5. 根據申請專利範圍第4項所述的方法,還包括:若該資料標籤為黑資料標籤,則對該資料標籤對應的該第二同設備關係網路中節點的向量化表示進行後續處 理。
  6. 根據申請專利範圍第3項所述的方法,該待識別資料集包括透過該帳戶分類模型判斷是否存在洗錢行為的待識別帳戶的集合。
  7. 一種分類模型生成裝置,包括:第一獲取模組,被配置為獲取預訓練帳戶分類模型的訓練樣本資料集,其中,該訓練樣本資料集中包括至少兩個帳戶以及每個帳戶對應的分類樣本標籤;第一構建模組,被配置為構建該至少兩個帳戶的第一同設備關係網路,透過該第一同設備關係網路的節點表徵該至少兩個帳戶;計算模組,被配置為基於該第一同設備關係網路結構,計算該第一同設備關係網路中每條邊的轉移概率,獲得該第一同設備關係網路的轉移概率圖;生成模組,被配置為基於該第一同設備關係網路的轉移概率圖隨機遊走生成該第一同設備關係網路中的每個節點的節點序列;處理模組,被配置為基於Word2vec的SkipGram框架將該節點序列中的每個節點進行向量化表示;訓練模組,被配置為透過該訓練樣本資料集對該預訓練帳戶分類模型進行訓練,得到帳戶分類模型,該帳戶分類模型使得該樣本標籤與該第一同設備關係網路中每個節 點的向量化表示相關聯。
  8. 一種資料識別裝置,包括:第二獲取模組,被配置為獲取待識別資料集,其中,該待識別資料集包括至少兩個待識別帳戶;第二構建模組,被配置為構建該至少兩個待識別帳戶的第二同設備關係網路,透過該第二同設備關係網路的節點表徵該至少兩個待識別帳戶;計算模組,被配置為基於第二同設備關係網路結構,計算第二同設備關係網路中每條邊的轉移概率,獲得第二同設備關係網路的轉移概率圖;序列生成模組,被配置為基於第二同設備關係網路的轉移概率圖隨機遊走生成第二同設備關係網路中的每個節點的節點序列;處理模組,被配置為基於Word2vec的SkipGram框架將該節點序列中的每個節點進行向量化表示;識別模組,被配置為根據預先訓練的帳戶分類模型,確定該第二同設備關係網路中每個節點的向量化表示對應的待識別帳戶的分類識別結果。
  9. 一種計算設備,包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的計算機指令,該處理器執行該指令時實現申請專利範圍第1-2或3-6項任意一項所述方法的步驟。
  10. 一種計算機可讀儲存媒體,其儲存有計算機指令,該程式被處理器執行時實現申請專利範圍第1-2或3-6項任意一項所述方法的步驟。
TW108120056A 2018-08-14 2019-06-11 分類模型生成方法及裝置、資料識別方法及裝置 TWI732226B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810924268.2A CN109102023A (zh) 2018-08-14 2018-08-14 一种分类模型生成方法及装置、一种数据识别方法及装置
CN201810924268.2 2018-08-14

Publications (2)

Publication Number Publication Date
TW202009788A TW202009788A (zh) 2020-03-01
TWI732226B true TWI732226B (zh) 2021-07-01

Family

ID=64849684

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108120056A TWI732226B (zh) 2018-08-14 2019-06-11 分類模型生成方法及裝置、資料識別方法及裝置

Country Status (6)

Country Link
US (1) US11107007B2 (zh)
EP (1) EP3779789A4 (zh)
CN (1) CN109102023A (zh)
SG (1) SG11202010669RA (zh)
TW (1) TWI732226B (zh)
WO (1) WO2020034750A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109102023A (zh) * 2018-08-14 2018-12-28 阿里巴巴集团控股有限公司 一种分类模型生成方法及装置、一种数据识别方法及装置
CN110163245A (zh) * 2019-04-08 2019-08-23 阿里巴巴集团控股有限公司 业务类别预测方法及系统
CN110009486B (zh) * 2019-04-09 2020-10-02 连连银通电子支付有限公司 一种欺诈检测的方法、系统、设备及计算机可读存储介质
CN110135166B (zh) * 2019-05-08 2021-03-30 北京国舜科技股份有限公司 一种针对业务逻辑漏洞攻击的检测方法及系统
CN111160254A (zh) * 2019-12-30 2020-05-15 杭州趣维科技有限公司 一种适用于短视频推荐打散的分类方法及系统
CN111444410B (zh) * 2020-03-27 2023-09-15 民生科技有限责任公司 一种基于知识图谱的关联交易挖掘识别方法及装置
CN111950708B (zh) * 2020-08-11 2023-10-03 华中师范大学 一种发现大学生日常生活习惯的神经网络结构与方法
CN112784116A (zh) * 2020-12-10 2021-05-11 复旦大学 一种在区块链中识别用户行业身份的方法
CN113204695B (zh) * 2021-05-12 2023-09-26 北京百度网讯科技有限公司 网站识别方法和装置
CN113792089B (zh) * 2021-09-16 2024-03-22 平安银行股份有限公司 基于人工智能的非法行为检测方法、装置、设备及介质
CN115424435B (zh) * 2022-08-10 2024-01-23 阿里巴巴(中国)有限公司 一种跨link道路识别网络的训练方法、识别跨link道路的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI546759B (zh) * 2013-03-28 2016-08-21 國立臺灣大學 遠距環境資料分類系統及其方法
US9594907B2 (en) * 2013-03-14 2017-03-14 Sas Institute Inc. Unauthorized activity detection and classification
CN106997474A (zh) * 2016-12-29 2017-08-01 南京邮电大学 一种基于深度学习的图节点多标签分类方法
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107885999A (zh) * 2017-11-08 2018-04-06 华中科技大学 一种基于深度学习的漏洞检测方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617163B2 (en) * 1998-05-01 2009-11-10 Health Discovery Corporation Kernels and kernel methods for spectral data
WO2002013095A2 (en) * 2000-08-03 2002-02-14 Unicru, Inc. Electronic employee selection systems and methods
US8463718B2 (en) * 2000-08-07 2013-06-11 Health Discovery Corporation Support vector machine-based method for analysis of spectral data
US8630975B1 (en) * 2010-12-06 2014-01-14 The Research Foundation For The State University Of New York Knowledge discovery from citation networks
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
US10296832B1 (en) * 2015-12-05 2019-05-21 ThetaRay Ltd. System and method for detecting an undesirable event
US20180165598A1 (en) * 2016-12-09 2018-06-14 Cognitive Scale, Inc. Method for Providing Financial-Related, Blockchain-Associated Cognitive Insights Using Blockchains
US10762563B2 (en) * 2017-03-10 2020-09-01 Cerebri AI Inc. Monitoring and controlling continuous stochastic processes based on events in time series data
WO2018170321A1 (en) * 2017-03-15 2018-09-20 Exari Group, Inc. Machine evaluation of contract terms
US10325224B1 (en) * 2017-03-23 2019-06-18 Palantir Technologies Inc. Systems and methods for selecting machine learning training data
US10839161B2 (en) * 2017-06-15 2020-11-17 Oracle International Corporation Tree kernel learning for text classification into classes of intent
US11210836B2 (en) * 2018-04-03 2021-12-28 Sri International Applying artificial intelligence to generate motion information
CN109102023A (zh) * 2018-08-14 2018-12-28 阿里巴巴集团控股有限公司 一种分类模型生成方法及装置、一种数据识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9594907B2 (en) * 2013-03-14 2017-03-14 Sas Institute Inc. Unauthorized activity detection and classification
TWI546759B (zh) * 2013-03-28 2016-08-21 國立臺灣大學 遠距環境資料分類系統及其方法
CN106997474A (zh) * 2016-12-29 2017-08-01 南京邮电大学 一种基于深度学习的图节点多标签分类方法
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN107301246A (zh) * 2017-07-14 2017-10-27 河北工业大学 基于超深卷积神经网络结构模型的中文文本分类方法
CN107885999A (zh) * 2017-11-08 2018-04-06 华中科技大学 一种基于深度学习的漏洞检测方法及系统

Also Published As

Publication number Publication date
US20210049511A1 (en) 2021-02-18
US11107007B2 (en) 2021-08-31
EP3779789A1 (en) 2021-02-17
CN109102023A (zh) 2018-12-28
TW202009788A (zh) 2020-03-01
EP3779789A4 (en) 2021-06-16
WO2020034750A1 (zh) 2020-02-20
SG11202010669RA (en) 2020-11-27

Similar Documents

Publication Publication Date Title
TWI732226B (zh) 分類模型生成方法及裝置、資料識別方法及裝置
JP6913241B2 (ja) 信用力があると判定された消費者にローンを発行するシステムおよび方法
WO2019114434A1 (zh) 一种基于图结构模型的交易风险控制方法、装置以及设备
WO2019114344A1 (zh) 一种基于图结构模型的异常账号防控方法、装置以及设备
WO2020038100A1 (zh) 一种特征关系推荐方法及装置、一种计算设备及存储介质
CN110175842A (zh) 基于区块链的转账方法、系统、计算设备及存储介质
CN112307472A (zh) 基于智能决策的异常用户识别方法、装置及计算机设备
CN112215604B (zh) 交易双方关系信息识别方法及装置
WO2022100518A1 (zh) 一种基于用户画像的物品推荐方法和装置
CN114298232A (zh) 用户的类型信息的确定方法、设备及存储介质
CN111353103A (zh) 用于确定用户社群信息的方法和装置
Li et al. Dynamic community detection based on graph convolutional networks and contrastive learning
CN113569059A (zh) 目标用户识别方法及装置
CN110796450B (zh) 可信关系处理方法以及装置
Ulutas et al. Assessing hypermutation operators of a clonal selection algorithm for the unequal area facility layout problem
CN116703553B (zh) 金融反欺诈风险监控方法、系统及可读存储介质
CN113011966A (zh) 基于深度学习的信用评分方法及装置
Du et al. Structure tuning method on deep convolutional generative adversarial network with nondominated sorting genetic algorithm II
Navya et al. IoT technology: Architecture, stack, security risks, privacy risks and its applications
CN116245603A (zh) 用户标签的处理方法、装置、云服务器和可读存储介质
US20180276749A1 (en) Multi-disciplinary comprehensive real-time trading signal within a designated time frame
CN110163761B (zh) 基于图像处理的可疑项目成员识别方法及装置
CN109598508B (zh) 一种识别方法和装置、一种计算设备及存储介质
Jansevskis et al. Machine Learning and on 5G Based Technologies Create New Opportunities to Gain Knowledge
Zong-Chang et al. Artificial immune algorithm-based credit evaluation for mobile telephone customers