TW201923685A

TW201923685A - 風險識別模型構建和風險識別方法、裝置及設備

Info

Publication number: TW201923685A
Application number: TW107131693A
Authority: TW
Inventors: 程羽; 陸青; 傅欣藝; 弢陳
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-11-10
Filing date: 2018-09-10
Publication date: 2019-06-16
Also published as: EP3648023A1; SG11202000861PA; CN107886243A; WO2019091177A1; EP3648023A4; US20200202449A1; US10977739B2; TWI688917B

Abstract

公開了一種風險識別模型構建和風險識別方法、裝置及設備。所述風險識別方法包括：獲取目標使用者在給定時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件；按照發生時間對所述使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列；將所產生的使用者狀態序列轉換為序列特徵；將所述序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。

Description

風險識別模型構建和風險識別方法、裝置及設備

本說明書涉及資料採擷技術領域，尤其涉及一種風險識別模型構建和風險識別方法、裝置及設備。

在大資料時代，資料採擷和機器學習技術逐漸被應用於各種領域以解決實際問題。例如根據大量的真實使用者資料或事件資料建立模型，從而實現對新使用者或新事件的各種未知情況的預測。
以金融行業的風控場景為例，透過對已定性風險事件的參與使用者進行分析，可以挖掘各種使用者特徵與風險事件的潛在關係，形成使用者特徵與風險的關係模型，即預測“什麼樣的使用者或使用者行為更容易導致風險事件”，從而提前採取各種措施，以避免或減少風險事件的發生。

針對上述技術問題，本說明書實施例提供一種風險識別模型構建和風險識別方法、裝置及設備，技術方案如下：
根據本說明書實施例的第一方面，提供一種風險識別模型構建方法，包括：
從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件，所述特定事件為已確定風險類型的事件；
按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對所述特定事件的使用者狀態序列；
將所產生的使用者狀態序列轉換為序列特徵；
以所得到的序列特徵作為特徵值、所述事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
根據本說明書實施例的第二方面，提供一種風險識別方法，包括：
從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件；
按照發生時間對所述使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列；
將所產生的使用者狀態序列轉換為序列特徵；
將所述序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。
根據本說明書實施例的協力廠商面，提供一種風險識別模型構建裝置，包括：
提取單元，從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件，所述特定事件為已確定風險類型的事件；
序列產生單元，按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對所述特定事件的使用者狀態序列；
特徵轉換單元，將所產生的使用者狀態序列轉換為序列特徵；
模型構建單元，以所得到的序列特徵作為特徵值、所述事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
根據本說明書實施例的第四方面，提供一種風險識別裝置，包括：
獲取單元，從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件；
序列產生單元，按照發生時間對所述使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列；
特徵轉換單元，將所產生的使用者狀態序列轉換為序列特徵；
輸出單元，將所述序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。
根據本說明書實施例的第五方面，提供一種電腦設備，包括：
處理器；
用於儲存處理器可執行指令的記憶體；
所述處理器被配置為：
從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件，所述特定事件為已確定風險類型的事件；
按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對所述特定事件的使用者狀態序列；
將所產生的使用者狀態序列轉換為序列特徵；
以所得到的序列特徵作為特徵值、所述事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
根據本說明書實施例的第六方面，提供一種電腦設備，包括：
處理器；
用於儲存處理器可執行指令的記憶體；
所述處理器被配置為：
從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件；
按照發生時間對所述使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列；
將所產生的使用者狀態序列轉換為序列特徵；
將所述序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。
本說明書實施例所提供的技術方案所產生的效果包括：
透過挖掘使用者狀態序列和風險事件之間的潛在關係，來構建風險識別模型，在風險識別階段，則可基於所述風險識別模型和提取到的待識別使用者的使用者狀態序列，來預測待識別使用者所作的特定事件或該使用者本身的風險，提高了風控體系對於風險的識別能力。
應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本說明書實施例。
此外，本說明書實施例中的任一實施例並不需要達到上述的全部效果。

為了使本領域技術人員更好地理解本說明書實施例中的技術方案，下面將結合本說明書實施例中的圖式，對本說明書實施例中的技術方案進行詳細地描述，顯然，所描述的實施例僅僅是本說明書的一部分實施例，而不是全部的實施例。基於本說明書中的實施例，本領域普通技術人員所獲得的所有其他實施例，都應當屬於保護的範圍。
為了實現風險識別，可以利用大量的已定性事件作為樣本，訓練得到“使用者特徵-風險分值”的對應關係。常用的使用者特徵一般可以分為靜態特徵和行為特徵兩類，在金融領域，與風險相關的靜態特徵可以包括使用者的資產資訊、認證資訊、社交關係資訊等等，而行為特徵則可以包括使用者在平臺上的各種行為，例如點擊、瀏覽、轉帳、存取操作等等。
相對於靜態特徵而言，行為特徵往往更適合進行風險預測。例如，一名普通使用者和一名欺詐者，透過靜態特徵可能並不容易進行有效區別。但是，由於在欺詐行為之前，欺詐者往往會進行一些準備活動，因此在欺詐行為發生前經常會做哪些操作、操作的次數、頻率等等，都能夠在一定程度上刻畫和表達出欺詐者的動機。
更進一步講，使用者的行為特徵除了包含行為事件本身(即使用者做過哪些事)之外，還可以包含與這些事件相關聯的時間資訊，例如，兩名使用者在過去1小時內的行為序列分別為：
使用者1：A→B→C→D
使用者2：B→C→A→D
可以看出，雖然兩個序列中都包含了同樣的行為事件，但因發生順序不同而形成兩種不同的行為模式，實際應用中，兩種不同的行為模式所導致的後續結果也可能是完全不同的。因此，隨著當今盜用和反盜用之間攻防的不斷升級，對盜用行為特徵的刻畫能力提出了新要求，在風險預測時，可以將使用者行為的時間特徵納入風險預測模型的訓練，以進一步提升風控效果。
出於以上考慮，本說明書實施例提供一種風險識別方案，該方案包括兩個階段：風險識別模型的構建階段和運用風險識別模型進行風險識別的階段。首先介紹風險識別模型的構建階段，參見圖1所示，一種風險識別模型構建方法可以包括以下步驟101～104，其中：
步驟101，從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄。
模型的構建是基於樣本資料所進行的機器學習過程，所以樣本資料的收集是第一步。“給定使用者”便是樣本使用者，通常樣本數越大，構建出的模型效果越好。一般地，樣本使用者的選擇可以基於使用者所做出的特定事件來進行的。其中，特定事件可以是已確定風險類型的事件，例如，對於已經發生的一筆轉帳，若後續確定該筆轉帳是盜用者所為，可將該轉帳事件的類型被確定為“高風險”，若後續確定該筆轉帳是使用者本人所為，則可將該轉帳事件的類型被確定為“低風險”。
在業務運營的過程中，可以將每一使用者的歷史資料沉澱下來(儲存到資料庫中)，也可以依賴於對線上資料的採集，這些資料可以包括靜態資料和動態資料。在篩選出大量樣本之後，針對每一樣本，都可以從樣本對應的資料中，提取在特定事件發生之前預設時長(如：1個小時)內的使用者狀態記錄。其中，所述使用者狀態記錄包括：使用者的操作行為(如：點擊、瀏覽、轉帳、存取操作等)和/或系統事件，所述系統事件可以包括：使用者行為導致的事件、非使用者行為導致的事件。也就是說，使用者狀態記錄反映了使用者在一段時長內做了哪些行為和/或發生了哪些系統事件，並且還記錄了每一使用者行為和/或系統事件的發生時刻。
步驟102，按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對所述特定事件的使用者狀態序列。
例如，對於使用者1，所提取到的使用者狀態記錄包含：A，B，C，D四個狀態(即行為或系統事件)，由於記錄了每個狀態所發生的時間，故按照時間先後的順序進行排序的結果例如為：
B→A→C→D
實際上，將排序結果直接作為最終的使用者狀態序列可能並不夠合理。例如，對於使用者1和使用者2，可能排序後的結果完全一樣，但是兩個使用者在任意兩個相鄰狀態間的間隔時長是不一樣的，在實際應用中，狀態之間的間隔時長的不同所反映出來的使用者動機也可能是完全不同的，例如，一名盜用者的顯著特點便是B和A這兩個狀態之間的間隔時長較短，而普通使用者則相反。
考慮到上述情況，在一實施例中，產生使用者狀態序列的過程可具體為：
在所述排序結果中，根據第i(i≥1)次使用者狀態與第i+1次使用者狀態的間隔時長，將第i次使用者狀態轉化為攜帶所述間隔時長資訊的使用者狀態。
沿用以上例子，假設i=1，則第1次使用者狀態為B，第2次使用者狀態為A。如果B和A這兩個使用者狀態之間的間隔時長為t1，則轉化後的結果例如為：
B(t1)→A→C→D
以此類推，還可以按照同樣方法對序列中的A和C進行轉化。
又例如，可將時間間隔劃分為“長”、“短”兩類(可以按照一個設定時長閾值來劃分)，則轉化後所得的結果例如為：
B(長)→A(短)→C(長)→D
在另一個方面，為了使得最終產生的使用者狀態序列能夠更好地表達使用者的動機，產生使用者狀態序列的過程可具體為：
在所述排序結果中，根據預先對第i次使用者狀態的評估結果，將第i次使用者狀態轉化為攜帶所述評估結果資訊的使用者狀態。
對於任意一種使用者狀態，都可以對其進行評估，所得到的評估結果用來反映該使用者狀態的好壞，例如，評估結果為一個介於0到1之間的分值，分值越高，表明其導致欺詐事件的可能性越小。實際上，可以透過收集大量包含某特定使用者狀態的使用者狀態記錄來進行評估，例如，收集了100條包含使用者狀態A的記錄，這100條記錄中，實際有10條記錄最終導致了欺詐事件，故對該使用者狀態A的評估結果可為0.9。
繼續沿用上述例子，最終轉化後所得的使用者狀態序列可以例如為：
B(0.3)→A(0.9)→C(0.6)→D(0.99)
又例如，可將對使用者狀態的評估結果劃分為“高風險”、“低風險”兩類，則轉化後所得的結果例如為：
B(低風險)→A(高風險)→C(低風險)→D(高風險)
在實際運用過程中發現，個別使用者狀態(例如：使用者點擊推送廣告等)由於對風險識別本身來說沒有實際意義，故並不需要在使用者狀態序列中有所體現。為此，產生使用者狀態序列的過程可具體為：
根據預設的過濾規則，對所述排序結果中的使用者狀態進行過濾。其中，過濾規則至少定義了哪些使用者狀態應該被過濾掉。
繼續沿用以上例子，對於排序結果：B→A→C→D，若按照過濾規則確定出C屬於應該過濾掉的狀態，則最終獲得的使用者狀態序列為：B→A→D。
當然，可行的序列轉換方式並不限於以上所列舉的例子，本文不作一一列舉。
步驟103，將所產生的使用者狀態序列轉換為序列特徵。
該步驟103的目的是將使用者狀態序列採用數學化的特徵表達，形成可用來識別的序列特徵。
在一實施例中，步驟103具體包括：將所產生的使用者狀態序列編碼為序列向量。更進一步地，所述將所產生的使用者狀態序列編碼為序列向量可以包括：
步驟131：根據第一編碼規則(如：word2vector)，將所述使用者狀態序列中的每一個狀態分別編碼為狀態向量。例如，對於B→A→C→D，將B編碼為：000101。
步驟132：利用神經網路將狀態向量所構成的序列編碼為序列向量。其中，所述神經網路包括但不限於：迴圈神經網路(Recurrent neural Network , RNN)、卷積神經網路(Convolutional Neural Network，CNN)。實際上，透過將多個狀態向量輸入到神經網路，以將神經網路最終輸出的向量作為序列向量。
在另一實施例中，所述方法還可包括步驟10和步驟20，其中：
步驟10，從多條使用者狀態序列中挖掘頻繁序列項集。
頻繁序列項集是由若干頻繁序列項所組成的集合，而頻繁序列項是指出現次數較為頻繁的序。在一個方面，可以透過收集若干條使用者狀態序列，並統計每一種使用者狀態序列的出現次數，最終按照出現次數從高到底進行排序，從而取一定數量的排位元靠前的使用者狀態序列作為頻繁序列項。在另一個方面，也可以從多條使用者狀態序列中挖掘出共同出現過的序列，作為頻繁序列項。例如：
使用者狀態序列1：A→B→D→F→C→E
使用者狀態序列2：A→B→F→C
使用者狀態序列3：A→B→D→C→E
則透過上述3個使用者狀態序列，最終挖掘出的頻繁序列項為：
A→B→C
步驟20，對於所述頻繁序列項集中的每一頻繁序列項，根據所述頻繁序列項對應的黑白樣本分佈情況，確定所述頻繁序列項對應的特徵值。
例如，對於“A→B→C”這一頻繁序列項，選取了100個包含該序列的樣本(當某個樣本在給定時長內出現了某序列，則確定該樣本包含該序列)，其中，可以根據每一個樣本最終是否導致風險事件(如盜用)，將每一樣本定性為白樣本(即未發生風險事件)或黑樣本(即發生了風險事件)。比如：這100個樣本中包括90個黑樣本和10個白樣本，則可以確定該頻繁序列項“A→B→C”所對應的風險概率(即導致風險事件的概率)=0.9。
本文中，可以根據頻繁序列項對應的風險概率，確定該頻繁序列項所對應的特徵值。例如，將頻繁序列項“A→B→C”對應的風險概率確定為其特徵值。或者，對於任意的頻繁序列項，可以透過softmax函數來得到特徵值。其中，softmax函數的本質是將一個K維的任意實數向量壓縮(映射)成另一個K維的實數向量，其中向量中的每個元素取值可以介於(0，1)之間，softmax函數用來解決多分類問題。
相應地，所述步驟103可以包括如下步驟133和步驟134，其中：
在步驟133中，基於所述頻繁序列項集，確定產生的使用者狀態序列中包含的頻繁序列項。
在步驟134中，根據所述使用者狀態序列中包含的頻繁序列項和預先確定的各頻繁序列項對應的特徵值，確定與所述使用者狀態序列對應的序列特徵。
舉例來說，假設產生的一個使用者狀態序列為：
A→B→D→F→C→E
基於預先挖掘得到的所述頻繁序列項集，確定該使用者狀態序列中包含的頻繁序列項(即該使用者狀態序列命中了哪些預先挖掘到的頻繁序列項)為：
A→B→D和D→F→C
其中，假設A→B→D所對應的特徵值是x1，D→F→C所對應的特徵值是x2，則最終可以根據所命中的頻繁序列項的特徵值x1、x2來計算出的使用者狀態序列：A→B→D→F→C→E所對應的序列特徵。例如：將所命中的頻繁序列項的特徵值進行求和，將和值作為序列特徵，等等。
步驟104，以所得到的序列特徵作為特徵值、所述事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
其中，所述特徵值是待訓練的模型的輸入，所述標籤值(如：高風險對應的標籤值為1，低風險對應的標籤值為0)可以作為模型所期望的輸出。當然，在實際模型訓練過程中，除了上述序列特徵之外，還可以引入其他特徵變數，例如，非序列的常規模型變數。所有的變數一同訓練模型並對線上風險進行識別。
參照圖2所示，基於以上構建的模型，一種風險識別方法可以包括步驟201～步驟204，其中：
步驟201，從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，其中，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件。
其中，關於步驟201何時應該提取使用者狀態記錄，包括如下情況：
情況一，當識別到目標使用者將要進行某個特定事件(如轉帳)時，開始提取該目標使用者在該特定事件之前的給定時長內的使用者狀態記錄。若最終識別出風險，則採取相應措施，如：不允許該轉帳。
情況二，當目標使用者已經執行了某個特定事件之後，開始提取該目標使用者在該特定事件之前的給定時長內的使用者狀態記錄。若最終識別出風險，則可以凍結欺詐者所用的帳號。
步驟202，按照發生時間對所述使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列。
步驟203，將所產生的使用者狀態序列轉換為序列特徵。
步驟204，將所述序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。其中，模型的輸出可以表示當前特定事件存在風險的可能性。
本說明書實施例所提供的方法所產生的效果包括：
透過挖掘使用者狀態序列和風險事件之間的潛在關係，來構建風險識別模型，在風險識別階段，則可基於所述風險識別模型和提取到的待識別使用者的使用者狀態序列，來預測待識別使用者所作的特定事件或該使用者本身的風險，提高了風控體系對於風險的識別能力，提升了風控系統的防禦強健性，使得策略和模型更難被盜用者繞過。另外，行為序列資訊可以直觀地反映了盜用者的作案手法，可輔助策略分析師方便地分析案件盜用行為手法，提高工作效率。
相應於上述方法實施例，本說明書實施例還提供一種風險識別模型構建裝置和風險識別裝置。
參見圖3所示，一種風險識別模型構建裝置300可以包括：
提取單元301，被配置為：從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件，所述特定事件為已確定風險類型的事件。
序列產生單元302，被配置為：按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對所述特定事件的使用者狀態序列。
特徵轉換單元303，被配置為：將所產生的使用者狀態序列轉換為序列特徵。
模型構建單元304，被配置為：以所得到的序列特徵作為特徵值、所述事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
在一實施例中，所述序列產生單元302可以被配置為：
在所述排序結果中，根據第i次使用者狀態與第i+1次使用者狀態的間隔時長，將第i次使用者狀態轉化為攜帶所述間隔時長資訊的使用者狀態。
在一實施例中，所述序列產生單元302可以被配置為：
在所述排序結果中，根據預先對第i次使用者狀態的評估結果，將第i次使用者狀態轉化為攜帶所述評估結果資訊的使用者狀態。
在一實施例中，所述序列產生單元302可以被配置為：
根據預設的過濾規則，對所述排序結果中的使用者狀態進行過濾。
參見圖4所示，一種風險識別裝置400可以包括：
獲取單元401，被配置為：從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件。
序列產生單元402，被配置為：按照發生時間對所述使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列。
特徵轉換單元403，被配置為：將所產生的使用者狀態序列轉換為序列特徵。
輸出單元404，被配置為：將所述序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。
在一實施例中，所述序列產生單元402可以被配置為：
在所述排序結果中，根據第i次使用者狀態與第i+1次使用者狀態的間隔時長，將第i次使用者狀態轉化為攜帶所述間隔時長資訊的使用者狀態。
在一實施例中，所述序列產生單元402可以被配置為：
在所述排序結果中，根據預先對第i次使用者狀態的評估結果，將第i次使用者狀態轉化為攜帶所述評估結果資訊的使用者狀態。
在一實施例中，所述序列產生單元402可以被配置為：
根據預設的過濾規則，對所述排序結果中的使用者狀態進行過濾。
上述裝置中各個模組的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程，在此不再贅述。
本說明書實施例還提供一種電腦設備，其至少包括記憶體、處理器及儲存在記憶體上並可在處理器上運行的電腦程式，其中，處理器執行所述程式時實現前述的風險識別方法。在一實施例中，方法至少包括：
從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件，所述特定事件為已確定風險類型的事件；
按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對所述特定事件的使用者狀態序列；
將所產生的使用者狀態序列轉換為序列特徵；
以所得到的序列特徵作為特徵值、所述事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
在另一實施例中，方法至少包括：
從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，所述使用者狀態記錄包括：使用者的操作行為和/或系統事件；
按照發生時間對所述使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列；
將所產生的使用者狀態序列轉換為序列特徵；
將所述序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。
圖5示出了本說明書實施例所提供的一種更為具體的計算設備硬體結構示意圖，該設備可以包括：處理器1010、記憶體1020、輸入/輸出介面1030、通信介面1040和匯流排1050。其中處理器1010、記憶體1020、輸入/輸出介面1030和通信介面1040透過匯流排1050實現彼此之間在設備內部的通信連接。
處理器1010可以採用通用的CPU(Central Processing Unit，中央處理器)、微處理器、特殊應用積體電路(Application Specific Integrated Circuit，ASIC)、或者一個或多個積體電路等方式實現，用於執行相關程式，以實現本說明書實施例所提供的技術方案。
記憶體1020可以採用ROM(Read Only Memory，唯讀記憶體)、RAM(Random Access Memory，隨機存取記憶體)、靜態存放裝置，動態儲存裝置設備等形式實現。記憶體1020可以儲存作業系統和其他應用程式，在透過軟體或者韌體來實現本說明書實施例所提供的技術方案時，相關的程式碼保存在記憶體1020中，並由處理器1010來調用執行。
輸入/輸出介面1030用於連接輸入/輸出模組，以實現資訊輸入及輸出。輸入輸出/模組可以作為元件配置在設備中(圖中未示出)，也可以外接於設備以提供相應功能。其中輸入裝置可以包括鍵盤、滑鼠、觸控式螢幕、麥克風、各類感測器等，輸出設備可以包括顯示器、揚聲器、振動器、指示燈等。
通信介面1040用於連接通信模組(圖中未示出)，以實現本設備與其他設備的通信交互。其中通信模組可以透過有線方式(例如USB、網線等)實現通信，也可以透過無線方式(例如行動網路、WIFI、藍牙等)實現通信。
匯流排1050包括一通路，在設備的各個元件(例如處理器1010、記憶體1020、輸入/輸出介面1030和通信介面1040)之間傳輸資訊。
需要說明的是，儘管上述設備僅示出了處理器1010、記憶體1020、輸入/輸出介面1030、通信介面1040以及匯流排1050，但是在具體實施過程中，該設備還可以包括實現正常運行所必需的其他元件。此外，本領域的技術人員可以理解的是，上述設備中也可以僅包含實現本說明書實施例方案所必需的組件，而不必包含圖中所示的全部元件。
透過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本說明書實施例可借助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解，本說明書實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品可以儲存在儲存媒體中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本說明書實施例各個實施例或者實施例的某些部分所述的方法。
上述實施例闡明的系統、裝置、模組或單元，具體可以由電腦晶片或實體實現，或者由具有某種功能的產品來實現。一種典型的實現設備為電腦，電腦的具體形式可以是個人電腦、膝上型電腦、蜂窩電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。
本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於裝置實施例而言，由於其基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中所述作為分離部件說明的模組可以是或者也可以不是物理上分開的，在實施本說明書實施例方案時可以把各模組的功能在同一個或多個軟體和/或硬體中實現。也可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。
以上所述僅是本說明書實施例的具體實施方式，應當指出，對於本技術領域的普通技術人員來說，在不脫離本說明書實施例原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應視為本說明書實施例的保護範圍。

300‧‧‧風險識別模型構建裝置

301‧‧‧提取單元

302‧‧‧序列產生單元

303‧‧‧特徵轉換單元

304‧‧‧模型構建單元

400‧‧‧風險識別裝置

401‧‧‧獲取單元

402‧‧‧序列產生單元

403‧‧‧特徵轉換單元

404‧‧‧輸出單元

1010‧‧‧處理器

1020‧‧‧記憶體

1030‧‧‧輸入/輸出介面

1040‧‧‧通信介面

1050‧‧‧匯流排

為了更清楚地說明本說明書實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹，顯而易見地，下面描述中的圖式僅僅是本說明書實施例中記載的一些實施例，對於本領域普通技術人員來講，還可以根據這些圖式獲得其他的圖式。

圖1是本說明書實施例的風險模型構建方法的流程示意圖；

圖2是本說明書實施例的風險識別方法的流程示意圖；

圖3是本說明書實施例的風險模型構建裝置的結構示意圖；

圖4是本說明書實施例的風險識別裝置的結構示意圖；

圖5是用於配置本說明書實施例裝置的一種設備的結構示意圖。

Claims

一種風險識別模型構建方法，包括：從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄，該使用者狀態記錄包括：使用者的操作行為和/或系統事件，該特定事件為已確定風險類型的事件；按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對該特定事件的使用者狀態序列；將所產生的使用者狀態序列轉換為序列特徵；以所得到的序列特徵作為特徵值、該事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
根據申請專利範圍第1項所述的方法，該根據排序結果產生針對該特定事件的使用者狀態序列，包括：在該排序結果中，根據第i次使用者狀態與第i+1次使用者狀態的間隔時長，將第i次使用者狀態轉化為攜帶該間隔時長資訊的使用者狀態。
根據申請專利範圍第1項所述的方法，該根據排序結果產生針對該特定事件的使用者狀態序列，包括：在該排序結果中，根據預先對第i次使用者狀態的評估結果，將第i次使用者狀態轉化為攜帶該評估結果資訊的使用者狀態。
根據申請專利範圍第1項所述的方法，該根據排序結果產生針對該特定事件的使用者狀態序列，包括：根據預設的過濾規則，對該排序結果中的使用者狀態進行過濾。
根據申請專利範圍第1項所述的方法，該將所產生的使用者狀態序列轉換為序列特徵，包括：將所產生的使用者狀態序列編碼為序列向量。
根據申請專利範圍第5項所述的方法，該將所產生的使用者狀態序列編碼為序列向量，包括：根據第一編碼規則，將該使用者狀態序列中的每一個狀態分別編碼為狀態向量；利用神經網路將狀態向量所構成的序列編碼為序列向量。
根據申請專利範圍第5項所述的方法，在將所產生的使用者狀態序列轉換為序列特徵之前，還包括：從多條使用者狀態序列中挖掘頻繁序列項集；對於該頻繁序列項集中的每一頻繁序列項，根據該頻繁序列項對應的黑白樣本分佈情況，確定該頻繁序列項對應的特徵值；該將所產生的使用者狀態序列轉換為序列特徵，包括：基於該頻繁序列項集，確定產生的使用者狀態序列中包含的頻繁序列項；根據該使用者狀態序列中包含的頻繁序列項和預先確定的各頻繁序列項對應的特徵值，確定與該使用者狀態序列對應的序列特徵。
一種風險識別方法，包括：從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，該使用者狀態記錄包括：使用者的操作行為和/或系統事件；按照發生時間對該使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列；將所產生的使用者狀態序列轉換為序列特徵；將該序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。
根據申請專利範圍第8項所述的方法，該根據排序結果產生使用者狀態序列，包括：在該排序結果中，根據第i次使用者狀態與第i+1次使用者狀態的間隔時長，將第i次使用者狀態轉化為攜帶該間隔時長資訊的使用者狀態。
根據申請專利範圍第8項所述的方法，該根據排序結果產生使用者狀態序列，包括：在該排序結果中，根據預先對第i次使用者狀態的評估結果，將第i次使用者狀態轉化為攜帶該評估結果資訊的使用者狀態。
根據申請專利範圍第8項所述的方法，該根據排序結果產生使用者狀態序列，包括：根據預設的過濾規則，對該排序結果中的使用者狀態進行過濾。
一種風險識別模型構建裝置，包括：提取單元，從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄，該使用者狀態記錄包括：使用者的操作行為和/或系統事件，該特定事件為已確定風險類型的事件；序列產生單元，按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對該特定事件的使用者狀態序列；特徵轉換單元，將所產生的使用者狀態序列轉換為序列特徵；模型構建單元，以所得到的序列特徵作為特徵值、該事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
根據申請專利範圍第12項所述的裝置，該序列產生單元被配置為：在該排序結果中，根據第i次使用者狀態與第i+1次使用者狀態的間隔時長，將第i次使用者狀態轉化為攜帶該間隔時長資訊的使用者狀態。
根據申請專利範圍第12項所述的裝置，該序列產生單元被配置為：在該排序結果中，根據預先對第i次使用者狀態的評估結果，將第i次使用者狀態轉化為攜帶該評估結果資訊的使用者狀態。
根據申請專利範圍第12項所述的裝置，該序列產生單元被配置為：根據預設的過濾規則，對該排序結果中的使用者狀態進行過濾。
一種風險識別裝置，包括：獲取單元，從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，該使用者狀態記錄包括：使用者的操作行為和/或系統事件；序列產生單元，按照發生時間對該使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列；特徵轉換單元，將所產生的使用者狀態序列轉換為序列特徵；輸出單元，將該序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。
根據申請專利範圍第16項所述的裝置，該序列產生單元被配置為：在該排序結果中，根據第i次使用者狀態與第i+1次使用者狀態的間隔時長，將第i次使用者狀態轉化為攜帶該間隔時長資訊的使用者狀態。
根據申請專利範圍第16項所述的裝置，該序列產生單元被配置為：在該排序結果中，根據預先對第i次使用者狀態的評估結果，將第i次使用者狀態轉化為攜帶該評估結果資訊的使用者狀態。
根據申請專利範圍第16項所述的裝置，該序列產生單元被配置為：根據預設的過濾規則，對該排序結果中的使用者狀態進行過濾。
一種電腦設備，包括：處理器；用於儲存處理器可執行指令的記憶體；該處理器被配置為：從給定使用者的資料中，提取特定事件發生前預設時長內的使用者狀態記錄，該使用者狀態記錄包括：使用者的操作行為和/或系統事件，該特定事件為已確定風險類型的事件；按照發生時間對所提取到的使用者狀態記錄進行排序，根據排序結果產生針對該特定事件的使用者狀態序列；將所產生的使用者狀態序列轉換為序列特徵；以所得到的序列特徵作為特徵值、該事件風險類型作為標籤值，構成風險識別樣本資料，並利用至少一條樣本資料構建風險識別模型。
一種電腦設備，包括：處理器；用於儲存處理器可執行指令的記憶體；該處理器被配置為：從目標使用者的資料中，提取該目標使用者在給定時長內的使用者狀態記錄，該使用者狀態記錄包括：使用者的操作行為和/或系統事件；按照發生時間對該使用者狀態記錄進行排序，根據排序結果產生使用者狀態序列；將所產生的使用者狀態序列轉換為序列特徵；將該序列特徵作為預先構建的風險識別模型的輸入，輸出風險識別結果。