資料標籤產生、模型訓練、事件識別方法和裝置
本案涉及電腦設備領域,尤其涉及一種資料標籤產生、模型訓練、事件識別方法和裝置。
隨著人工智慧技術和深度學習技術的發展,可以在電腦內建立各種模型,透過模型對各種事件進行處理。比如,透過用戶投訴事件識別模型對用戶投訴事件進行處理,以判斷用戶投訴事件是否成立。用戶投訴事件可以是投訴其他用戶賭博、洗錢等事件。
目前訓練模型的主要過程為:獲取樣本資料,對樣本資料打標籤,利用打標籤後的樣本資料訓練模型。目前主要透過人工手動的方式對資料打標籤,存在有標籤的準確性難以保證的問題,導致模型的資料處理結果準確率低。
本案實施例的目的是提供一種資料標籤產生、模型訓練、事件識別方法和裝置,以解決人工手動打標籤存在的標籤準確性難以保證的問題,提高模型的資料處理結果的準確率。
為解決上述技術問題,本案實施例是這樣實現的:
本案實施例提供了一種資料標籤產生方法,包括:
獲取目標事件的多條事件資料;
透過所述目標事件對應的多個事件識別策略,分別對各條所述事件資料進行處理,得到各條所述事件資料的相對於風險事件的第一識別結果資料;
根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,得到各條所述事件資料的相對於風險事件的第二識別結果資料;
根據各條所述事件資料的所述第二識別結果資料,確定各條所述事件資料的資料標籤。
本案實施例提供了一種模型訓練方法,包括:
根據上述的資料標籤產生方法,確定目標事件的事件資料的資料標籤;
將所述目標事件的事件資料作為所述目標事件的樣本資料;
根據所述目標事件的樣本資料和所述樣本資料的資料標籤,訓練所述目標事件對應的風險事件識別模型,其中,所述風險事件識別模型用於識別所述目標事件是否為風險事件,或者,用於識別所述目標事件為風險事件的機率。
本案實施例提供了一種事件識別方法,包括:
獲取待識別目標事件的事件資料;
利用上述模型訓練方法訓練得到的風險事件識別模型,對所述待識別目標事件的事件資料進行處理;
根據處理結果,確定所述待識別目標事件是否為風險事件,或者,確定所述待識別目標事件為風險事件的機率。
本案實施例提供了一種資料標籤產生裝置,包括:
第一獲取模組,用於獲取目標事件的多條事件資料;
第一結果確定模組,用於透過所述目標事件對應的多個事件識別策略,分別對各條所述事件資料進行處理,得到各條所述事件資料的相對於風險事件的第一識別結果資料;
第二結果確定模組,用於根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,得到各條所述事件資料的相對於風險事件的第二識別結果資料;
標籤產生模組,用於根據各條所述事件資料的所述第二識別結果資料,確定各條所述事件資料的資料標籤。
本案實施例提供了一種模型訓練裝置,包括:
標籤確定模組,用於根據上述的資料標籤產生裝置,確定目標事件的事件資料的資料標籤;
樣本確定模組,用於將所述目標事件的事件資料作為所述目標事件的樣本資料;
模型訓練模組,用於根據所述目標事件的樣本資料和所述樣本資料的資料標籤,訓練所述目標事件對應的風險事件識別模型,其中,所述風險事件識別模型用於識別所述目標事件是否為風險事件,或者,用於識別所述目標事件為風險事件的機率。
本案實施例提供了一種事件識別裝置,包括:
第二獲取模組,用於獲取待識別目標事件的事件資料;
資料處理模組,用於利用上述的模型訓練裝置訓練得到的風險事件識別模型,對所述待識別目標事件的事件資料進行處理;
事件識別模組,用於根據處理結果,確定所述待識別目標事件是否為風險事件,或者,確定所述待識別目標事件為風險事件的機率。
本案實施例提供了一種電子設備,包括:處理器;以及被安排成儲存電腦可執行指令的記憶體,所述電腦可執行指令在被執行時使所述處理器實現上述的資料標籤產生方法的步驟,或者,實現上述的模型訓練方法的步驟,或者,實現上述的事件識別方法的步驟。
本案實施例提供了一種儲存媒體,用於儲存電腦可執行指令,所述電腦可執行指令在被執行時實現上述的資料標籤產生方法的步驟,或者,實現上述的模型訓練方法的步驟,或者,實現上述的事件識別方法的步驟。
本實施例中,首先獲取目標事件的多條事件資料,並透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料,然後根據第一識別結果資料對應的資料推斷模型,基於第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料,最後根據各條事件資料的第二識別結果資料,確定各條事件資料的資料標籤。本實施例中,透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,從而準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型的資料處理結果的準確率。
為了使本技術領域的人員更好地理解本案中的技術方案,下面將結合本案實施例中的圖式,對本案實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本案一部分實施例,而不是全部的實施例。基於本案中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本案保護的範圍。
本案實施例提供了一種資料標籤產生、模型訓練、事件識別方法和裝置,以解決人工手動打標籤存在的標籤準確性難以保證的問題,提高模型的資料處理結果的準確率。
圖1為本案一實施例提供的本實施例中的各個方法的應用場景示意圖,如圖1所示,圖1提供了一種電腦系統,該系統包括資料標籤產生子系統100、模型訓練子系統200和事件識別子系統300,其中,資料標籤產生子系統100可以執行本實施例中的資料標籤產生方法,以為各條事件資料打標籤。模型訓練子系統200可以執行本實施例中的模型訓練方法,基於打標籤完成的各條事件資料,訓練風險事件識別模型,風險事件識別模型用於識別目標事件是否為風險事件,或者,用於識別目標事件為風險事件的機率。事件識別子系統300可以執行本實施例中的事件識別方法,運行模型訓練子系統200訓練得到的風險事件識別模型,從而識別目標事件是否為風險事件,或者,識別目標事件為風險事件的機率。
本實施例中,圖1中的資料標籤產生子系統100、模型訓練子系統200和事件識別子系統300可以分別包括一個或多個電腦設備,比如,透過若干個電腦設備組成資料標籤產生子系統100,透過若干個電腦設備組成模型訓練子系統200,透過若干個電腦設備組成事件識別子系統300。
在其他實施例中,也可以透過兩個子系統實現本實施例中的各個方法,比如,透過一個子系統執行資料標籤產生方法和模型訓練方法,透過另一個子系統執行事件識別方法,或者,透過一個子系統執行資料標籤產生方法,透過另一個子系統執行模型訓練方法和事件識別方法。其中,每個子系統分別包括一個或多個電腦設備。
在其他實施例中,也可以透過一個電腦設備實現上述的資料標籤產生方法、模型訓練方法和事件識別方法。需要說明的是,以上提及的各種實施例所達到的功能和效果均相同,這裡不再重複。
圖2為本案一實施例提供的資料標籤產生方法的流程示意圖,如圖2所示,該流程包括以下步驟:
步驟S202,獲取目標事件的多條事件資料;
步驟S204,透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料;
步驟S206,根據第一識別結果資料對應的資料推斷模型,基於第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料;
步驟S208,根據各條事件資料的第二識別結果資料,確定各條事件資料的資料標籤。
本實施例中,首先獲取目標事件的多條事件資料,並透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料,然後根據第一識別結果資料對應的資料推斷模型,基於第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料,最後根據各條事件資料的第二識別結果資料,確定各條事件資料的資料標籤。本實施例中,透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,從而準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型的資料處理結果的準確率。
上述步驟S202中,目標事件可以為用戶交易事件,目標事件的事件資料可以為用戶交易事件對應的交易資料。比如,用戶透過電商平台進行多次商品購買活動,則目標事件設定為用戶的買賣交易事件,目標事件的事件資料設定為用戶的買賣交易事件對應的交易資料。本實施例中,交易資料包括但不限於交易時間、交易金額、交易時的網路環境參數、交易所用的終端設備的設備參數、交易金額扣款途徑、商家資訊、收款帳戶資訊等。
一個具體的實施例中,選取用戶的信用卡交易事件為目標事件,並設置風險事件為套現事件,從而為用戶的信用卡交易資料打標籤,該標籤可以用於表示對應的信用卡交易事件為套現事件的機率。另一個具體的實施例中,選取用戶的購物交易事件為目標事件,並設置風險事件為賭博事件,從而為用戶的購物交易資料打標籤,該標籤可以用於表示對應的購物交易事件為賭博事件的機率。
本實施例中,預設有風險資料倉庫,該倉庫中儲存有大量用戶的交易資料,步驟S202中,可以從該風險資料倉庫中獲取多條交易資料作為事件資料。
本實施例中,預先配置有多個事件識別策略,事件識別策略可以對目標事件的事件資料進行處理,以識別目標事件是否為風險事件,或者識別目標事件為風險事件的機率。以目標事件為信用卡交易事件,風險事件為套現事件為例,透過事件識別策略可以識別信用卡交易事件是否為套現事件。事件識別策略可以包括各種模型或規則等。
上述步驟S204中,透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料。由於分別透過多個事件識別策略對各條事件資料進行處理,因此每條事件資料均具有多個第一識別結果資料。一個實施例中,每條事件資料透過一個事件識別策略識別得到一個第一識別結果資料,每條事件資料的第一識別結果資料的數量與事件識別策略的數量相同。
在一個具體的實施例中,事件識別策略包括模型和規則。透過模型可以對事件資料進行處理,從而確定目標事件為風險事件的機率,透過規則(比如基於If-Then的規則)可以對事件資料進行處理,從而確定目標事件是否為風險事件。其中,模型和規則中涉及的各個臨限值可以基於人工經驗確定。本實施例中,若模型或規則的輸出結果為分值形式,則可以對模型或規則輸出的各個分值進行正規化處理,比如將分值都正規化到0-10分之間,從而方便後續處理。
由於透過事件識別策略識別得到的第一識別結果資料可能不太準確,基於第一識別結果資料為事件資料打標籤可能存在準確率低的問題,因此本實施例中第一識別結果資料又可以稱為事件資料的“弱標籤”。
下表1為本案一實施例提供的第一識別結果資料的示意表,如表1所示,以三個事件識別策略、四條事件資料為例,透過每個事件識別策略,能夠為每條事件資料識別得到一個第一識別結果資料,從而得到下表1。
表1
| 事件識別策略1 | 事件識別策略2 | 事件識別策略3 |
第一條事件資料 | 第一識別結果資料1.1 | 第一識別結果資料2.1 | 第一識別結果資料3.1 |
第二條事件資料 | 第一識別結果資料1.2 | 第一識別結果資料2.2 | 第一識別結果資料3.2 |
第三條事件資料 | 第一識別結果資料1.3 | 第一識別結果資料2.3 | 第一識別結果資料3.3 |
第四條事件資料 | 第一識別結果資料1.4 | 第一識別結果資料2.4 | 第一識別結果資料3.4 |
在得到多個第一識別結果資料後,本實施例中,可以確定第一識別結果資料對應的資料推斷模型,具體確定方式如下:
(a1) 在得到各條事件資料的相對於風險事件的第二識別結果資料之前,將每個事件識別策略的針對各條事件資料的多個第一識別結果資料確定為一組第一識別結果資料;
(a2) 對各組第一識別結果資料進行分析,以確定各組第一識別結果資料之間的資料相關性分析結果;
(a3) 分別對各組第一識別結果資料進行分布統計,以確定各組第一識別結果資料各自對應的分布資料;其中,第一識別結果資料可以為分值資料;
(a4) 根據資料相關性分析結果和/或分布資料,確定第一識別結果資料對應的資料推斷模型,資料推斷模型包括投票模型、機率圖模型和矩陣分解模型中的至少一種。
由表1可知,每個事件識別策略基於多條事件資料對應一組第一識別結果資料,比如表1中的第一識別結果資料1.1、第一識別結果資料1.2、第一識別結果資料1.3和第一識別結果資料1.4組成一組第一識別結果資料。因此上述動作(a1)中,在得到各條事件資料的相對於風險事件的第二識別結果資料之前,將每個事件識別策略的針對各條事件資料的多個第一識別結果資料確定為一組第一識別結果資料,表1中共有三組第一識別結果資料。
上述動作(a2)中,對各組第一識別結果資料進行分析,以確定各組第一識別結果資料之間的資料相關性分析結果,比如,將表1中從左至右的每列第一識別結果資料確定為一組第一識別結果資料,對表1中的這三組第一識別結果資料進行分析,以確定任意兩組第一識別結果資料之間的資料相關性。資料相關性是指資料之間存在某種關係,如正相關,負相關等,具體分析方法可以採用通用的分析演算法,這裡不做限定。
上述動作(a3)中,分別對各組第一識別結果資料進行分布統計,以確定各組第一識別結果資料各自對應的分布資料。一個具體的實施例中,分別對各組第一識別結果資料進行分布統計,得到各組第一識別結果資料各自對應的資料分布函數,將該資料分布函數作為各組第一識別結果資料各自對應的分布資料。當然,該分布資料也可以為資料分布直方圖或者資料分布曲線圖等,這裡不做限定。
上述動作(a4)中,根據資料相關性分析結果和/或分布資料,確定第一識別結果資料對應的資料推斷模型,資料推斷模型包括投票模型、機率圖模型和矩陣分解模型中的至少一種。
一個實施例中,可以人工根據資料相關性分析結果和/或分布資料,在投票模型、機率圖模型和矩陣分解模型中選擇一種模型作為第一識別結果資料對應的資料推斷模型。
另一個實施例中,若資料相關性分析結果表示各組第一識別結果資料之間高度相關,則可以選擇機率圖模型或矩陣分解模型作為資料推斷模型,若資料相關性分析結果表示各組第一識別結果資料之間不相關,則可以選擇投票模型作為資料推斷模型。
另一個實施例中,若上述分布資料滿足特定的分布形態要求,則可以選擇機率圖模型或矩陣分解模型作為資料推斷模型,若上述分布資料不滿足特定的分布形態要求,則可以選擇投票模型作為資料推斷模型。
另一個實施例中,若資料相關性分析結果表示各組第一識別結果資料之間高度相關,且上述分布資料滿足特定的分布形態要求,則可以選擇機率圖模型或矩陣分解模型作為資料推斷模型,若資料相關性分析結果表示各組第一識別結果資料之間不相關,或者,上述分布資料不滿足特定的分布形態要求,則可以選擇投票模型作為資料推斷模型。
根據資料相關性分析結果和/或分布資料在投票模型、機率圖模型和矩陣分解模型中選擇一種模型作為資料推斷模型的方式有多種,這裡不再一一列舉。
在確定資料推斷模型後,可以執行上述步驟S206,根據第一識別結果資料對應的資料推斷模型,基於第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料,該過程具體為:透過所述資料推斷模型,對各條事件資料對應的各個第一識別結果資料進行運算,得到各條事件資料的相對於風險事件的第二識別結果資料。
具體地,以資料推斷模型為投票模型為例,結合上述表1,本步驟中可以透過投票模型對每條事件資料對應的各個第一識別結果資料進行投票運算,得到每條事件資料的相對於風險事件的第二識別結果資料。其中,第二識別結果資料可以是從各個第一識別結果資料中投票選擇確定的,也可以是重新產生的識別結果資料。
以資料推斷模型為機率圖模型為例,結合上述表1,本步驟中可以透過機率圖模型以每條事件資料對應的各個第一識別結果資料為基礎建立機率圖,根據該機率圖確定每條事件資料的相對於風險事件的第二識別結果資料。其中,第二識別結果資料可以是從各個第一識別結果資料中選擇確定的,也可以是重新產生的識別結果資料。
透過矩陣分解模型對每條事件資料對應的各個第一識別結果資料進行運算,得到每條事件資料的相對於風險事件的第二識別結果資料的過程可以參考矩陣分解模型的具體演算法過程,這裡不再重複。
由於本實施例中透過資料推斷的方式對每條事件資料對應的各個第一識別結果資料進行運算,得到每條事件資料的相對於風險事件的第二識別結果資料,因此得到的第二識別結果資料具有準確性高的優點。
上述步驟S208中,根據各條事件資料的第二識別結果資料,確定各條事件資料的資料標籤,可以為:將各條事件資料的第二識別結果資料,分別確定為各條事件資料的資料標籤,比如第一條事件資料的資料標籤為1,表示該條事件資料對應的目標事件為賭博事件,第二條事件資料的資料標籤為0,表示該條事件資料對應的目標事件不為賭博事件,其中,賭博事件即為前述的風險事件。
透過以上過程,能夠為各條事件資料確定準確的資料標籤,從而解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型的資料處理結果的準確率。
考慮到透過步驟S204得到各條事件資料的相對於風險事件的第一識別結果資料後,可能存在第一識別結果資料為缺失資料,或者第一識別結果資料過於不準確不具有參考依據的情况,本實施例中的方法在得到各條事件資料的相對於風險事件的第二識別結果資料之前,還可以:根據第一識別結果資料,在各個事件識別策略中確定問題策略,在第一識別結果資料中删除問題策略對應的第一識別結果資料。相應地,根據第一識別結果資料對應的資料推斷模型,基於第一識別結果資料進行資料推斷,具體為:根據删除後的第一識別結果資料對應的資料推斷模型,基於删除後的第一識別結果資料進行資料推斷。
其中,根據第一識別結果資料,在各個事件識別策略中確定問題策略,可以為:
(b1) 將每個事件識別策略的針對各條事件資料的多個第一識別結果資料確定為一組第一識別結果資料;
(b2) 對第一識別結果資料分別執行以下處理中的一項或多項,根據執行結果,在各個事件識別策略中確定問題策略;
(b21) 分別統計各組第一識別結果資料中表示識別結果為空缺的第一識別結果資料的數量比例;
(b22) 分別對各組第一識別結果資料進行分布統計,以確定各組第一識別結果資料各自對應的分布資料;其中,第一識別結果資料可以為分值資料;
(b23) 對各組第一識別結果資料進行分析,以確定各組第一識別結果資料之間的資料相關性分析結果。
由表1可知,每個事件識別策略基於多條事件資料對應一組第一識別結果資料,比如表1中的第一識別結果資料1.1、第一識別結果資料1.2、第一識別結果資料1.3和第一識別結果資料1.4組成一組第一識別結果資料。因此上述動作(b1)中,將每個事件識別策略的針對各條事件資料的多個第一識別結果資料確定為一組第一識別結果資料,表1中共有三組第一識別結果資料。
上述動作(b21)中,分別統計各組第一識別結果資料中表示識別結果為空缺的第一識別結果資料的數量比例。以表1為例,統計表1中每列資料(即每組第一識別結果資料)中表示識別結果為空缺的第一識別結果資料的數量比例。在透過事件識別策略對目標事件的事件資料進行處理時,事件識別策略的識別結果資料可能表示識別結果為空缺,即未得到識別結果的情况,基於此,本實施例中統計空缺結果的數量比例,若空缺結果的數量比例偏高,則說明對應的事件識別策略不適用於處理該目標事件的事件資料。
上述動作(b22)中,分別對各組第一識別結果資料進行分布統計,以確定各組第一識別結果資料各自對應的分布資料。一個具體的實施例中,分別對各組第一識別結果資料進行分布統計,得到各組第一識別結果資料各自對應的資料分布函數,將該資料分布函數作為各組第一識別結果資料各自對應的分布資料。當然,該分布資料也可以為資料分布直方圖或者資料分布曲線圖等,這裡不做限定。
上述動作(b23)中,對各組第一識別結果資料進行分析,以確定各組第一識別結果資料之間的資料相關性分析結果,比如,將表1中從左至右的每列第一識別結果資料確定為一組第一識別結果資料,對表1中的這三組第一識別結果資料進行分析,以確定任意兩組第一識別結果資料之間的資料相關性,或者確定任意三組第一識別結果資料之間的資料相關性。資料相關性是指資料之間存在某種關係,如正相關,負相關等,具體分析方法可以採用通用的分析演算法,這裡不做限定。
上述動作(b2)中,根據執行結果,在各個事件識別策略中確定問題策略。比如,根據動作(b21)中統計的數量比例,確定表示識別結果為空缺的第一識別結果資料的數量比例超過設定比例臨限值的一組或多組第一識別結果資料,將該一組或多組第一識別結果資料對應的事件識別策略確定為問題策略。又如,根據動作(b22)確定的分布資料,確定對應的分布資料的分布形態不符合預設的分布形態要求的一組或多組第一識別結果資料,將該一組或多組第一識別結果資料對應的事件識別策略確定為問題策略。又如,根據動作(b23)確定的資料相關性分析結果,確定兩組高度相關的第一識別結果資料,將這兩組第一識別結果資料中任意一組第一識別結果資料對應的事件識別策略確定為問題策略。
在一個具體的實施例中,若根據資料相關性分析結果確定存在兩組第一識別結果資料的資料相關性高度相關,並且其中一組第一識別結果資料中表示識別結果為空缺的第一識別結果資料的數量比例大於預設的比例臨限值,則將這兩組第一識別結果資料中任意一組第一識別結果資料對應的事件識別策略確定為問題策略。
在另一個具體的實施例中,可以先確定空缺值比例要求、分布資料要求、資料相關性要求等,根據這些要求以及上述動作(b21)(b22)(b23)的執行結果,在各個事件識別策略中確定問題策略,然後在第一識別結果資料中删除問題策略對應的第一識別結果資料,並確定删除後的第一識別結果資料對應的資料推斷模型。
在又一個具體的實施例中,可以先確定第一識別結果資料對應的資料推斷模型,然後根據該資料推斷模型的性能參數,確定對應的資料要求,資料要求包括空缺值比例要求、分布資料要求和資料相關性要求等,根據這些要求以及上述動作(b21)(b22)(b23)的執行結果,在各個事件識別策略中確定問題策略。該方式中,删除後的第一識別結果資料對應的資料推斷模型,即為,删除前的第一識別結果資料對應的資料推斷模型。
圖3為本案另一實施例提供的資料標籤產生方法的流程示意圖,如圖3所示,該流程包括以下步驟:
步驟S302,獲取目標事件的多條事件資料;
步驟S304,透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料;
步驟S306,根據第一識別結果資料,在各個事件識別策略中確定問題策略,在第一識別結果資料中删除問題策略對應的第一識別結果資料;
步驟S308,確定删除後的第一識別結果資料對應的資料推斷模型;
步驟S310,根據删除後的第一識別結果資料對應的資料推斷模型,基於删除後的第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料;
步驟S312,將各條事件資料的第二識別結果資料,分別確定為各條事件資料的資料標籤。
圖4為本案另一實施例提供的資料標籤產生方法的流程示意圖,如圖4所示,該流程包括以下步驟:
步驟S402,獲取目標事件的多條事件資料;
步驟S404,透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料;
步驟S406,確定第一識別結果資料對應的資料推斷模型;
步驟S408,根據第一識別結果資料和資料推斷模型對應的資料要求,在各個事件識別策略中確定問題策略,在第一識別結果資料中删除問題策略對應的第一識別結果資料;
步驟S410,根據第一識別結果資料對應的資料推斷模型,基於删除後的第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料;
步驟S412,將各條事件資料的第二識別結果資料,分別確定為各條事件資料的資料標籤。
透過圖3圖4中的流程,能夠為各條事件資料確定準確的資料標籤,從而解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型的資料處理結果的準確率。尤其,透過圖4中的流程,能夠根據資料推斷模型對應的資料要求在第一識別結果資料中確定不符合要求的資料進行删除,可以使得資料標籤推斷結果更為準確。
在資金風險識別領域中可以應用本實施例中的資料標籤產生方法,透過設置目標事件為用戶的交易事件,目標事件的事件資料為用戶的交易事件的事件資料,可以達到為事件資料打標籤的效果,其中,風險事件可以為洗錢事件、賭博事件、套現事件等。
一個具體的實施例中,選取用戶的信用卡交易事件為目標事件,並設置風險事件為套現事件,從而為用戶的信用卡交易資料打標籤,該標籤可以用於表示對應的信用卡交易事件為套現事件的機率。另一個具體的實施例中,選取用戶的購物交易事件為目標事件,並設置風險事件為賭博事件,從而為用戶的購物交易資料打標籤,該標籤可以用於表示對應的購物交易事件為賭博事件的機率。
在資金風險識別領域中透過本實施例中的方法為交易資料打標籤,能夠提高打標籤的準確性,提高用戶資金風險識別的準確性,並且由於該方法可以自動執行,不需要人工干預,因此該方法運維簡單方便。
綜上,本實施例中的資料標籤產生方法具有以下有益效果:
(1) 可以為各條事件資料確定準確的資料標籤,從而解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型的資料處理結果的準確率;
(2) 提出了一種基於弱監督學習的資料標籤產生方法,針對現有的識別模型和規則準確率不高、覆蓋率低的問題進行了改進,將該本質上無監督學習的問題從標籤學習出發,提供了基於弱標籤的解決思路和途徑;
(3) 該方法可以應用在資金風險識別場景中,提高用戶資金風險識別的準確性;
(4) 該方法可以使用多種電腦語言和軟硬體實現,不受到軟硬體環境和電腦語言的限制。
基於上述的資料標籤產生方法,本案實施例還提供了一種模型訓練方法,圖5為本案一實施例提供的模型訓練方法的流程示意圖,如圖5所示,該方法包括以下步驟:
步驟S502,根據上述的資料標籤產生方法,確定目標事件的事件資料的資料標籤;
這部分可以參考前面的描述,這裡不再重複。
步驟S504,將目標事件的事件資料作為目標事件的樣本資料;
步驟S506,根據目標事件的樣本資料和樣本資料的資料標籤,訓練目標事件對應的風險事件識別模型,其中,風險事件識別模型用於識別目標事件是否為風險事件,或者,用於識別目標事件為風險事件的機率。
步驟S506中模型可以採用已有的方法訓練,這裡不做限定。本實施例中訓練得到的風險事件識別模型可以為深度學習模型或卷積神經網路模型等模型。
本實施例中,目標事件可以為用戶交易事件,目標事件的事件資料可以為用戶交易事件對應的交易資料。比如,用戶透過電商平台進行多次商品購買活動,則目標事件設定為用戶的買賣交易事件,目標事件的事件資料設定為用戶的買賣交易事件對應的交易資料。本實施例中,交易資料包括但不限於交易時間、交易金額、交易時的網路環境參數、交易所用的終端設備的設備參數、交易金額扣款途徑、商家資訊、收款帳戶資訊等。
一個具體的實施例中,選取用戶的信用卡交易事件為目標事件,並設置風險事件為套現事件,從而為用戶的信用卡交易資料打標籤,基於所打的標籤訓練用於識別套現事件的風險事件識別模型。另一個具體的實施例中,選取用戶的購物交易事件為目標事件,並設置風險事件為賭博事件,從而為用戶的購物交易資料打標籤,基於所打的標籤訓練用於識別賭博事件的風險事件識別模型。
本實施例中,利用上述的資料標籤產生方法所產生的資料標籤訓練風險事件識別模型。由於在產生資料標籤時透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,因此能夠準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型訓練的準確性,提高模型的資料處理結果的準確率。
基於上述的模型訓練方法,本案實施例還提供了一種事件識別方法,圖6為本案一實施例提供的事件識別方法的流程示意圖,如圖6所示,該方法包括以下步驟:
步驟S602,獲取待識別目標事件的事件資料。
具體地,可以從網路上獲取待識別目標事件的事件資料。
步驟S604,利用上述模型訓練方法訓練得到的風險事件識別模型,對待識別目標事件的事件資料進行處理。
步驟S606,根據處理結果,確定待識別目標事件是否為風險事件,或者,確定待識別目標事件為風險事件的機率。
其中,風險事件識別模型的輸出結果可以是待識別目標事件是否為風險事件,或者是待識別目標事件為風險事件的機率。
本實施例中,待識別目標事件可以為用戶交易事件,待識別目標事件的事件資料可以為用戶交易事件對應的交易資料。比如,用戶透過電商平台進行多次商品購買活動,則待識別目標事件設定為用戶的買賣交易事件,待識別目標事件的事件資料設定為用戶的買賣交易事件對應的交易資料。本實施例中,交易資料包括但不限於交易時間、交易金額、交易時的網路環境參數、交易所用的終端設備的設備參數、交易金額扣款途徑、商家資訊、收款帳戶資訊等。
一個具體的實施例中,選取用戶的信用卡交易事件為待識別目標事件,並設置風險事件為套現事件,從而識別信用卡交易事件是否為套現事件。另一個具體的實施例中,選取用戶的購物交易事件為待識別目標事件,並設置風險事件為賭博事件,從而識別購物交易事件是否為賭博事件。
本實施例中風險事件識別模型的處理結果可以為二分類結果或分值結果。
本實施例中,利用上述的模型訓練方法訓練得到的風險事件識別模型識別待識別目標事件是否為風險事件。由於在訓練風險事件識別模型時,採用上述的資料標籤產生方法透過資料推斷的方式準確得到各條事件資料的識別結果資料,因此能夠準確確定事件資料的資料標籤,從而提高資料打標籤的準確率,進而提高模型訓練的準確性,提高模型的資料處理結果的準確率。
基於上述的資料標籤產生方法,本案實施例還提供了一種資料標籤產生裝置,圖7為本案一實施例提供的一種資料標籤產生裝置的模組組成示意圖,如圖7所示,該裝置包括:
第一獲取模組71,用於獲取目標事件的多條事件資料;第一結果確定模組72,用於透過所述目標事件對應的多個事件識別策略,分別對各條所述事件資料進行處理,得到各條所述事件資料的相對於風險事件的第一識別結果資料;第二結果確定模組73,用於根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,得到各條所述事件資料的相對於風險事件的第二識別結果資料;標籤產生模組74,用於根據各條所述事件資料的所述第二識別結果資料,確定各條所述事件資料的資料標籤。
可選地,所述裝置還包括模型確定模組,用於:在得到各條所述事件資料的相對於風險事件的第二識別結果資料之前,將每個所述事件識別策略的針對各條所述事件資料的多個所述第一識別結果資料確定為一組所述第一識別結果資料;對各組所述第一識別結果資料進行分析,以確定各組所述第一識別結果資料之間的資料相關性分析結果;分別對各組所述第一識別結果資料進行分布統計,以確定各組所述第一識別結果資料各自對應的分布資料;根據所述資料相關性分析結果和/或所述分布資料,確定所述第一識別結果資料對應的資料推斷模型,所述資料推斷模型包括投票模型、機率圖模型和矩陣分解模型中的至少一種。
可選地,所述裝置還包括資料删除模組,用於:在得到各條所述事件資料的相對於風險事件的第二識別結果資料之前,根據所述第一識別結果資料,在各個所述事件識別策略中確定問題策略,在所述第一識別結果資料中删除所述問題策略對應的第一識別結果資料;所述第二結果確定模組73具體用於:根據删除後的所述第一識別結果資料對應的資料推斷模型,基於删除後的所述第一識別結果資料進行資料推斷。
可選地,所述資料删除模組具體用於:將每個所述事件識別策略的針對各條所述事件資料的多個所述第一識別結果資料確定為一組所述第一識別結果資料;對所述第一識別結果資料分別執行以下處理中的一項或多項,根據執行結果,在各個所述事件識別策略中確定問題策略;分別統計各組所述第一識別結果資料中表示識別結果為空缺的第一識別結果資料的數量比例;分別對各組所述第一識別結果資料進行分布統計,以確定各組所述第一識別結果資料各自對應的分布資料;對各組所述第一識別結果資料進行分析,以確定各組所述第一識別結果資料之間的資料相關性分析結果。
可選地,所述資料推斷模型包括投票模型、機率圖模型和矩陣分解模型中的至少一種;所述第二結果確定模組73具體用於:透過所述資料推斷模型,對各條所述事件資料對應的各個所述第一識別結果資料進行運算,得到各條所述事件資料的相對於風險事件的第二識別結果資料。
可選地,所述標籤產生模組74具體用於:將各條所述事件資料的所述第二識別結果資料,分別確定為各條所述事件資料的資料標籤。
本實施例中,首先獲取目標事件的多條事件資料,並透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料,然後根據第一識別結果資料對應的資料推斷模型,基於第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料,最後根據各條事件資料的第二識別結果資料,確定各條事件資料的資料標籤。本實施例中,透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,從而準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型的資料處理結果的準確率。
基於上述的模型訓練方法,本案實施例還提供了一種模型訓練裝置,圖8為本案一實施例提供的一種模型訓練裝置的模組組成示意圖,如圖8所示,該裝置包括:
標籤確定模組81,用於根據上述的資料標籤產生裝置,確定目標事件的事件資料的資料標籤;
樣本確定模組82,用於將所述目標事件的事件資料作為所述目標事件的樣本資料;
模型訓練模組83,用於根據所述目標事件的樣本資料和所述樣本資料的資料標籤,訓練所述目標事件對應的風險事件識別模型,其中,所述風險事件識別模型用於識別所述目標事件是否為風險事件,或者,用於識別所述目標事件為風險事件的機率。
本實施例中,利用上述的資料標籤產生裝置所產生的資料標籤訓練風險事件識別模型。由於在產生資料標籤時透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,因此能夠準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型訓練的準確性,提高模型的資料處理結果的準確率。
基於上述的事件識別方法,本案實施例還提供了一種事件識別裝置,圖9為本案一實施例提供的一種事件識別裝置的模組組成示意圖,如圖9所示,該裝置包括:
第二獲取模組91,用於獲取待識別目標事件的事件資料;
資料處理模組92,用於利用上述的模型訓練裝置訓練得到的風險事件識別模型,對所述待識別目標事件的事件資料進行處理;
事件識別模組93,用於根據處理結果,確定所述待識別目標事件是否為風險事件,或者,確定所述待識別目標事件為風險事件的機率。
本實施例中,利用上述的模型訓練裝置訓練得到的風險事件識別模型識別待識別目標事件是否為風險事件。由於在訓練風險事件識別模型時,採用上述的資料標籤產生裝置透過資料推斷的方式準確得到各條事件資料的識別結果資料,因此能夠準確確定事件資料的資料標籤,從而提高資料打標籤的準確率,進而提高模型訓練的準確性,提高模型的資料處理結果的準確率。
需要說明的是,本案實施例中的資料標籤產生裝置、模型訓練裝置和事件識別裝置,分別可以實現前述的資料標籤產生方法、模型訓練方法和事件識別方法的實施例的各個過程,並達到相同的效果和功能,這裡不再贅述。
進一步地,本案實施例還提供了一種電子設備,圖10為本案一實施例提供的電子設備的結構示意圖,如圖10所示。電子設備可因配置或性能不同而產生比較大的差異,可以包括一個或一個以上的處理器901和記憶體902,記憶體902中可以儲存有一個或一個以上儲存應用程式或資料。其中,記憶體902可以是短暫儲存或持久儲存。儲存在記憶體902的應用程式可以包括一個或一個以上模組(圖式未示出),每個模組可以包括對電子設備中的一系列電腦可執行指令。更進一步地,處理器901可以設置為與記憶體902通信,在電子設備上執行記憶體902中的一系列電腦可執行指令。電子設備還可以包括一個或一個以上電源903,一個或一個以上有線或無線網路介面904,一個或一個以上輸入輸出介面905,一個或一個以上鍵盤906等。
在一個具體的實施例中,電子設備包括有記憶體,以及一個或一個以上的程式,其中一個或者一個以上程式儲存於記憶體中,且一個或者一個以上程式可以包括一個或一個以上模組,且每個模組可以包括對電子設備中的一系列電腦可執行指令,且經配置以由一個或者一個以上處理器執行該一個或者一個以上程式包含用於進行以下電腦可執行指令:
獲取目標事件的多條事件資料;
透過所述目標事件對應的多個事件識別策略,分別對各條所述事件資料進行處理,得到各條所述事件資料的相對於風險事件的第一識別結果資料;
根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,得到各條所述事件資料的相對於風險事件的第二識別結果資料;
根據各條所述事件資料的所述第二識別結果資料,確定各條所述事件資料的資料標籤。
可選地,電腦可執行指令在被執行時,在得到各條所述事件資料的相對於風險事件的第二識別結果資料之前,還包括:將每個所述事件識別策略的針對各條所述事件資料的多個所述第一識別結果資料確定為一組所述第一識別結果資料;對各組所述第一識別結果資料進行分析,以確定各組所述第一識別結果資料之間的資料相關性分析結果;分別對各組所述第一識別結果資料進行分布統計,以確定各組所述第一識別結果資料各自對應的分布資料;根據所述資料相關性分析結果和/或所述分布資料,確定所述第一識別結果資料對應的資料推斷模型,所述資料推斷模型包括投票模型、機率圖模型和矩陣分解模型中的至少一種。
可選地,電腦可執行指令在被執行時,在得到各條所述事件資料的相對於風險事件的第二識別結果資料之前,還包括:根據所述第一識別結果資料,在各個所述事件識別策略中確定問題策略,在所述第一識別結果資料中删除所述問題策略對應的第一識別結果資料;根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,包括:根據删除後的所述第一識別結果資料對應的資料推斷模型,基於删除後的所述第一識別結果資料進行資料推斷。
可選地,電腦可執行指令在被執行時,根據所述第一識別結果資料,在各個所述事件識別策略中確定問題策略,包括:將每個所述事件識別策略的針對各條所述事件資料的多個所述第一識別結果資料確定為一組所述第一識別結果資料;對所述第一識別結果資料分別執行以下處理中的一項或多項,根據執行結果,在各個所述事件識別策略中確定問題策略;分別統計各組所述第一識別結果資料中表示識別結果為空缺的第一識別結果資料的數量比例;分別對各組所述第一識別結果資料進行分布統計,以確定各組所述第一識別結果資料各自對應的分布資料;對各組所述第一識別結果資料進行分析,以確定各組所述第一識別結果資料之間的資料相關性分析結果。
可選地,電腦可執行指令在被執行時,所述資料推斷模型包括投票模型、機率圖模型和矩陣分解模型中的至少一種;根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,得到各條所述事件資料的相對於風險事件的第二識別結果資料,包括:透過所述資料推斷模型,對各條所述事件資料對應的各個所述第一識別結果資料進行運算,得到各條所述事件資料的相對於風險事件的第二識別結果資料。
可選地,電腦可執行指令在被執行時,根據各條所述事件資料的所述第二識別結果資料,確定各條所述事件資料的資料標籤,包括:將各條所述事件資料的所述第二識別結果資料,分別確定為各條所述事件資料的資料標籤。
本實施例中,首先獲取目標事件的多條事件資料,並透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料,然後根據第一識別結果資料對應的資料推斷模型,基於第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料,最後根據各條事件資料的第二識別結果資料,確定各條事件資料的資料標籤。本實施例中,透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,從而準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型的資料處理結果的準確率。
在另一個具體的實施例中,電子設備包括有記憶體,以及一個或一個以上的程式,其中一個或者一個以上程式儲存於記憶體中,且一個或者一個以上程式可以包括一個或一個以上模組,且每個模組可以包括對電子設備中的一系列電腦可執行指令,且經配置以由一個或者一個以上處理器執行該一個或者一個以上程式包含用於進行以下電腦可執行指令:
根據上述的資料標籤產生方法,確定目標事件的事件資料的資料標籤;
將所述目標事件的事件資料作為所述目標事件的樣本資料;
根據所述目標事件的樣本資料和所述樣本資料的資料標籤,訓練所述目標事件對應的風險事件識別模型,其中,所述風險事件識別模型用於識別所述目標事件是否為風險事件,或者,用於識別所述目標事件為風險事件的機率。
本實施例中,利用上述的資料標籤產生方法所產生的資料標籤訓練風險事件識別模型。由於在產生資料標籤時透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,因此能夠準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型訓練的準確性,提高模型的資料處理結果的準確率。
在另一個具體的實施例中,電子設備包括有記憶體,以及一個或一個以上的程式,其中一個或者一個以上程式儲存於記憶體中,且一個或者一個以上程式可以包括一個或一個以上模組,且每個模組可以包括對電子設備中的一系列電腦可執行指令,且經配置以由一個或者一個以上處理器執行該一個或者一個以上程式包含用於進行以下電腦可執行指令:
獲取待識別目標事件的事件資料;
利用上述的模型訓練方法訓練得到的風險事件識別模型,對所述待識別目標事件的事件資料進行處理;
根據處理結果,確定所述待識別目標事件是否為風險事件,或者,確定所述待識別目標事件為風險事件的機率。
本實施例中,利用上述的模型訓練方法訓練得到的風險事件識別模型識別待識別目標事件是否為風險事件。由於在訓練風險事件識別模型時,採用上述的資料標籤產生方法透過資料推斷的方式準確得到各條事件資料的識別結果資料,因此能夠準確確定事件資料的資料標籤,從而提高資料打標籤的準確率,進而提高模型訓練的準確性,提高模型的資料處理結果的準確率。
需要說明的是,本案各個實施例中的電子設備,分別可以實現前述的資料標籤產生方法、模型訓練方法和事件識別方法的實施例的各個過程,並達到相同的效果和功能,這裡不再贅述。
進一步地,本案實施例還提供了一種儲存媒體,用於儲存電腦可執行指令,一種具體的實施例中,該儲存媒體可以為隨身碟、光碟、硬碟等,該儲存媒體儲存的電腦可執行指令在被處理器執行時,能實現以下流程:
獲取目標事件的多條事件資料;
透過所述目標事件對應的多個事件識別策略,分別對各條所述事件資料進行處理,得到各條所述事件資料的相對於風險事件的第一識別結果資料;
根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,得到各條所述事件資料的相對於風險事件的第二識別結果資料;
根據各條所述事件資料的所述第二識別結果資料,確定各條所述事件資料的資料標籤。
可選地,該儲存媒體儲存的電腦可執行指令在被處理器執行時,在得到各條所述事件資料的相對於風險事件的第二識別結果資料之前,還包括:將每個所述事件識別策略的針對各條所述事件資料的多個所述第一識別結果資料確定為一組所述第一識別結果資料;對各組所述第一識別結果資料進行分析,以確定各組所述第一識別結果資料之間的資料相關性分析結果;分別對各組所述第一識別結果資料進行分布統計,以確定各組所述第一識別結果資料各自對應的分布資料;根據所述資料相關性分析結果和/或所述分布資料,確定所述第一識別結果資料對應的資料推斷模型,所述資料推斷模型包括投票模型、機率圖模型和矩陣分解模型中的至少一種。
可選地,該儲存媒體儲存的電腦可執行指令在被處理器執行時,在得到各條所述事件資料的相對於風險事件的第二識別結果資料之前,還包括:根據所述第一識別結果資料,在各個所述事件識別策略中確定問題策略,在所述第一識別結果資料中删除所述問題策略對應的第一識別結果資料;根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,包括:根據删除後的所述第一識別結果資料對應的資料推斷模型,基於删除後的所述第一識別結果資料進行資料推斷。
可選地,該儲存媒體儲存的電腦可執行指令在被處理器執行時,根據所述第一識別結果資料,在各個所述事件識別策略中確定問題策略,包括:將每個所述事件識別策略的針對各條所述事件資料的多個所述第一識別結果資料確定為一組所述第一識別結果資料;對所述第一識別結果資料分別執行以下處理中的一項或多項,根據執行結果,在各個所述事件識別策略中確定問題策略;分別統計各組所述第一識別結果資料中表示識別結果為空缺的第一識別結果資料的數量比例;分別對各組所述第一識別結果資料進行分布統計,以確定各組所述第一識別結果資料各自對應的分布資料;對各組所述第一識別結果資料進行分析,以確定各組所述第一識別結果資料之間的資料相關性分析結果。
可選地,該儲存媒體儲存的電腦可執行指令在被處理器執行時,所述資料推斷模型包括投票模型、機率圖模型和矩陣分解模型中的至少一種;根據所述第一識別結果資料對應的資料推斷模型,基於所述第一識別結果資料進行資料推斷,得到各條所述事件資料的相對於風險事件的第二識別結果資料,包括:透過所述資料推斷模型,對各條所述事件資料對應的各個所述第一識別結果資料進行運算,得到各條所述事件資料的相對於風險事件的第二識別結果資料。
可選地,該儲存媒體儲存的電腦可執行指令在被處理器執行時,根據各條所述事件資料的所述第二識別結果資料,確定各條所述事件資料的資料標籤,包括:將各條所述事件資料的所述第二識別結果資料,分別確定為各條所述事件資料的資料標籤。
本實施例中,首先獲取目標事件的多條事件資料,並透過目標事件對應的多個事件識別策略,分別對各條事件資料進行處理,得到各條事件資料的相對於風險事件的第一識別結果資料,然後根據第一識別結果資料對應的資料推斷模型,基於第一識別結果資料進行資料推斷,得到各條事件資料的相對於風險事件的第二識別結果資料,最後根據各條事件資料的第二識別結果資料,確定各條事件資料的資料標籤。本實施例中,透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,從而準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型的資料處理結果的準確率。
在另一種具體的實施例中,該儲存媒體可以為隨身碟、光碟、硬碟等,該儲存媒體儲存的電腦可執行指令在被處理器執行時,能實現以下流程:
根據上述的資料標籤產生方法,確定目標事件的事件資料的資料標籤;
將所述目標事件的事件資料作為所述目標事件的樣本資料;
根據所述目標事件的樣本資料和所述樣本資料的資料標籤,訓練所述目標事件對應的風險事件識別模型,其中,所述風險事件識別模型用於識別所述目標事件是否為風險事件,或者,用於識別所述目標事件為風險事件的機率。
本實施例中,利用上述的資料標籤產生方法所產生的資料標籤訓練風險事件識別模型。由於在產生資料標籤時透過資料推斷的方式,能夠準確得到各條事件資料的識別結果資料,因此能夠準確確定事件資料的資料標籤,解決人工手動打標籤存在的標籤準確性難以保證的問題,提高資料打標籤的準確率,提高模型訓練的準確性,提高模型的資料處理結果的準確率。
在另一種具體的實施例中,該儲存媒體可以為隨身碟、光碟、硬碟等,該儲存媒體儲存的電腦可執行指令在被處理器執行時,能實現以下流程:
獲取待識別目標事件的事件資料;
利用上述的模型訓練方法訓練得到的風險事件識別模型,對所述待識別目標事件的事件資料進行處理;
根據處理結果,確定所述待識別目標事件是否為風險事件,或者,確定所述待識別目標事件為風險事件的機率。
本實施例中,利用上述的模型訓練方法訓練得到的風險事件識別模型識別待識別目標事件是否為風險事件。由於在訓練風險事件識別模型時,採用上述的資料標籤產生方法透過資料推斷的方式準確得到各條事件資料的識別結果資料,因此能夠準確確定事件資料的資料標籤,從而提高資料打標籤的準確率,進而提高模型訓練的準確性,提高模型的資料處理結果的準確率。
需要說明的是,本案各個實施例中的儲存媒體,分別可以實現前述的資料標籤產生方法、模型訓練方法和事件識別方法的實施例的各個過程,並達到相同的效果和功能,這裡不再贅述。
在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極體、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可程式邏輯裝置(Programmable Logic Device,PLD)(例如場可程式閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對裝置編程來確定。由設計人員自行編程來把一個數位系統“積集”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片。而且,如今,取代手工地製作積體電路晶片,這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始碼也得用特定的程式語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。
控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的電腦可讀程式碼(例如軟體或韌體)的電腦可讀媒體、邏輯閘、開關、專用積體電路(Application Specific Integrated Circuit,ASIC)、可程式邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,記憶體控制器還可以被實現為記憶體的控制邏輯的一部分。本領域技術人員也知道,除了以純電腦可讀程式碼方式實現控制器以外,完全可以透過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可程式邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。
上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦。具體的,電腦例如可以為個人電腦、膝上型電腦、蜂巢式電話、相機電話、智慧電話、個人數位助理、媒體播放器、導航設備、電子郵件設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任何設備的組合。
為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本案時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。
本領域內的技術人員應明白,本案的實施例可提供為方法、系統、或電腦程式產品。因此,本案可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本案可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁盤記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本案是參照根據本案實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式資料處理設備的處理器以產生一個機器,使得透過電腦或其他可程式資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式資料處理設備上,使得在電腦或其他可程式設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。
記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃(flash RAM)。記憶體是電腦可讀媒體的示例。
電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可抹除可程式唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁碟儲存或其他磁性儲存設備或任何其他非傳輸媒體,可用於儲存可以被計算設備存取的資訊。按照本文中的界定,電腦可讀媒體不包括暫存電腦可讀媒體(transitory media),如調變的資料信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情况下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本案的實施例可提供為方法、系統或電腦程式產品。因此,本案可採用完全硬體實施例、完全軟體實施例或結合軟體和硬體方面的實施例的形式。而且,本案可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁盤記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本案可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、組件、資料結構等等。也可以在分布式計算環境中實踐本案,在這些分布式計算環境中,由透過通信網路而被連接的遠端處理設備來執行任務。在分布式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。
本說明書中的各個實施例均採用漸進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上所述僅為本案的實施例而已,並不用於限制本案。對於本領域技術人員來說,本案可以有各種更改和變化。凡在本案的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本案的申請專利範圍之內。
100:資料標籤產生子系統
200:模型訓練子系統
300:事件識別子系統
S202:步驟
S204:步驟
S206:步驟
S208:步驟
S302:步驟
S304:步驟
S306:步驟
S308:步驟
S310:步驟
S312:步驟
S402:步驟
S404:步驟
S406:步驟
S408:步驟
S410:步驟
S412:步驟
S502:步驟
S504:步驟
S506:步驟
S602:步驟
S604:步驟
S606:步驟
71:第一獲取模組
72:第一結果確定模組
73:第二結果確定模組
74:標籤產生模組
81:標籤確定模組
82:樣本確定模組
83:模型訓練模組
91:第二獲取模組
92:資料處理模組
93:事件識別模組
901:處理器
902:記憶體
903:電源
904:有線或無線網路介面
905:輸入輸出介面
906:鍵盤
為了更清楚地說明本案實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本案中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些圖式獲得其他的圖式。
[圖1] 為本案一實施例提供的本實施例中的各個方法的應用場景示意圖;
[圖2] 為本案一實施例提供的資料標籤產生方法的流程示意圖;
[圖3] 為本案另一實施例提供的資料標籤產生方法的流程示意圖;
[圖4] 為本案另一實施例提供的資料標籤產生方法的流程示意圖;
[圖5] 為本案一實施例提供的模型訓練方法的流程示意圖;
[圖6] 為本案一實施例提供的事件識別方法的流程示意圖;
[圖7] 為本案一實施例提供的一種資料標籤產生裝置的模組組成示意圖;
[圖8] 為本案一實施例提供的一種模型訓練裝置的模組組成示意圖;
[圖9] 為本案一實施例提供的一種事件識別裝置的模組組成示意圖;
[圖10] 為本案一實施例提供的電子設備的結構示意圖。