TWI664535B

TWI664535B - 資料類型的識別、模型訓練、風險識別方法、裝置及設備

Info

Publication number: TWI664535B
Application number: TW107108576A
Authority: TW
Inventors: 程羽
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-06-16
Filing date: 2018-03-14
Publication date: 2019-07-01
Also published as: MY201302A; SG11201906380PA; TW201905728A; CN107391569B; US11100220B2; CN107391569A; WO2018228428A1; US20200167466A1; PH12019501621A1; US20190303569A1; US11113394B2

Abstract

本發明提供一種資料類型的識別、模型訓練方法、裝置及電腦設備，該模型訓練方法包括：獲取第一樣本資料集，利用所述第一樣本資料集對異常檢測模型進行訓練；通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集，利用所述異常樣本資料集對分類模型進行訓練。本實施例能降低分類模型的打分事件量，也能提供相對平衡的樣本資料集進行訓練，得到準確率較高的分類模型。具體應用時，待識別資料先輸入至異常檢測模型中，能快速區分出是否為第一類資料，對於異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，線上進行資料識別速度較快。

Description

資料類型的識別、模型訓練、風險識別方法、裝置及設備

本發明關於資料分析技術領域，尤其關於資料類型的識別、模型訓練、風險識別方法、裝置及設備。

在資料分析領域中，經常需要識別資料的類型。例如，識別用戶帳戶是否被盜用、識別交易是否為風險交易、識別用戶行為是否為欺詐行為等等。相關技術中，通常根據歷史資料確定黑白樣本，其中，白樣本表示歷史資料中正常的一類樣本，黑樣本表示歷史資料中出現帳戶盜用、高風險交易或欺詐行為等等事件的另一類樣本。之後可基於分類演算法，利用黑白樣本訓練得到分類器。　　然而現實生活中，相對於正常事件，帳戶盜用、高風險或欺詐行為的事件的出現概率較低，因此，黑白樣本在多數的場景下都是嚴重的不平衡，黑樣本占總體樣本的比例較低，因此會給分類器的訓練帶來較大挑戰，分類器的識別準確率可能較低。

為克服相關技術中存在的問題，本發明提供了資料類型的識別、模型訓練、風險識別方法、裝置及設備。　　一種資料類型的識別方法，用於識別資料為第一類資料或第二類資料，所述方法包括：　　獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料；　　將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料。　　可選的，所述異常檢測模型通過如下方式預先訓練得到：　　獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；　　利用所述第一樣本資料集對異常檢測模型進行訓練。　　可選的，所述分類模型通過如下方式預先訓練得到：　　通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；　　利用所述異常樣本資料集對所述分類模型進行訓練。　　可選的，在利用所述異常樣本資料集對所述分類模型進行訓練前，所述方法還包括：　　基於特徵最佳化演算法最佳化所述異常樣本資料集。　　一種模型訓練方法，用於訓練異常檢測模型和分類模型；　　所述異常檢測模型用於檢測輸入資料出第一類資料；　　所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類；　　所述方法包括：　　通過如下方式訓練所述異常檢測模型：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料；利用所述第一樣本資料集對異常檢測模型進行訓練；　　通過如下方式訓練所述分類模型：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。　　可選的，在利用所述異常樣本資料集對所述分類模型進行訓練前，所述方法還包括：　　基於特徵最佳化演算法最佳化所述異常樣本資料集。　　一種風險識別方法，用於識別資料為安全資料或風險資料，所述方法包括：　　獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常資料；　　若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；　　若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。　　一種資料類型的識別裝置，用於識別資料為第一類資料或第二類資料，所述裝置包括：　　資料獲取模組，用於：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料；　　類型確定模組，用於：將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料。　　可選的，還包括異常檢測模型訓練模組，用於：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。　　可選的，還包括分類模型訓練模組，用於：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。　　可選的，所述裝置還包括最佳化模組，用於在利用所述異常樣本資料集對所述分類模型進行訓練前，基於特徵最佳化演算法最佳化所述異常樣本資料集。　　一種模型訓練裝置，用於訓練異常檢測模型和分類模型；　　所述異常檢測模型用於檢測輸入資料為第一類資料；　　所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類；　　所述裝置包括：　　異常檢測模型訓練模組，用於：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料；利用所述第一樣本資料集對異常檢測模型進行訓練；　　分類模型訓練模組，用於：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。　　可選的，所述裝置還包括最佳化模組，用於在利用所述異常樣本資料集對所述分類模型進行訓練前，基於特徵最佳化演算法最佳化所述異常樣本資料集。　　一種風險識別裝置，用於識別資料為安全資料或風險資料，所述裝置包括：　　資料獲取模組，用於：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常；　　風險確定模組，用於：若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。　　一種電腦設備，包括：　　處理器；　　用於儲存處理器可執行指令的記憶體；　　其中，所述處理器被配置為：　　獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料；　　將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料。　　一種電腦設備，包括：　　處理器；　　用於儲存處理器可執行指令的記憶體；　　其中，所述處理器被配置為：　　通過如下方式訓練所述異常檢測模型：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料；利用所述第一樣本資料集對異常檢測模型進行訓練；　　通過如下方式訓練所述分類模型：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。　　一種電腦設備，包括：　　處理器；　　用於儲存處理器可執行指令的記憶體；　　其中，所述處理器被配置為：　　獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常資料；　　若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；　　若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。　　本發明的實施例提供的技術方案可以包括以下有益效果：　　本發明實施例中，在訓練過程中，首先利用第一樣本資料集訓練得到異常檢測模型，基於此，全量的第二樣本資料集可以篩選出異常樣本資料集。由於分類模型是利用異常檢測模型識別出的異常樣本資料集訓練得到，因此對於分類模型，可以剔除大部分的第一類資料，快速區分出相比較大多數樣本而言異常的樣本，而剩餘的異常樣本可能包含了絕大多數的第二類資料，以及部分第一類資料。之後利用異常樣本進行分類模型訓練，既可以降低最終分類模型的打分事件量，又可以提供相對平衡的樣本資料集供分類模型訓練，由於異常樣本資料集中第一類資料和第二類資料的比例相對均衡，因此能夠訓練得到準確率較高的分類模型，因此可以結合這兩個部分提升資料識別能力。在具體應用時，可以線上部署異常檢測模型和分類模型，待識別資料首先輸入至異常檢測模型中，從而可以快速區分出該待識別資料是否為異常，如果異常，則進一步由分類模型進行分類。　　應當理解的是，以上的一般描述和後文的細節描述僅是示例性和解釋性的，並不能限制本發明。

這裡將詳細地對示例性實施例進行說明，其示例表示在附圖中。下面的描述關於附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本發明相一致的所有實施方式。相反，它們僅是與如所附申請專利範圍中所詳述的、本發明的一些態樣相一致的裝置和方法的例子。　　在本發明使用的術語是僅僅出於描述特定實施例的目的，而非意於限制本發明。在本發明和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也意於包括多數形式，除非上下文清楚地表示其他含義。還應當理解，本文中使用的術語“和/或”是指並包含一個或多個相關的列出專案的任何或所有可能組合。　　應當理解，儘管在本發明可能採用術語第一、第二、第三等來描述各種資訊，但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如，在不脫離本發明範圍的情況下，第一資訊也可以被稱為第二資訊，類似地，第二資訊也可以被稱為第一資訊。取決於語境，如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。　　在資料分析領域中，經常需要識別資料的類型。例如，識別用戶帳戶是否被盜用、識別交易是否為風險交易、識別用戶行為是否為欺詐行為等等。　　以風險識別為例，風險識別是風控體系中重要的組成部分，是風險決策的主要依據來源。隨著機器學習和資料採擷技術的普及和進步，利用模型進行風險識別成為一種趨勢。一種典型的模型風險識別是利用有監督學習演算法，根據歷史行為和業務經驗知識，構建模型及入模變數，再以黑白標籤訓練模型。最後訓練好的模型部署於線上，即時對風險進行判別。這類方案相比於傳統基於規則的識別不僅更加精確，而且難以被輕易攻破，但仍舊存在問題和挑戰：　　一態樣，黑白樣本在多數的場景下嚴重不平衡。在現實生活中，大部分的時間都可以認為是安全的或者低風險的，因此這一類正常資料(白樣本)的數量非常大。相比較而言，高風險事件的這一類資料(黑樣本)只占很小部分，如萬分之一甚至比例更低。因此，在利用歷史資料確定樣本時，樣本中的黑白比例會有嚴重的不平衡情況。雖然很多方案會通過取樣、懲罰等技術提高黑樣本占總體訓練樣本的比例，但無法從根本上解決樣本不平衡給分類器帶來的挑戰，所訓練的分類器的準確率可能無法保證。　　另一態樣，線上高併發巨量資料對分類器的性能不斷提出更高的要求。線上模型需要在短時間內，如200ms內識別出風險，否則會影響系統的穩定和用戶體驗，風險形勢和用戶體驗對快速識別的精準性和性能正在提出更多的挑戰。　　基於此，本發明實施例一態樣提供了一種模型訓練方案，該模型訓練方案能訓練有異常檢測模型和分類模型，該異常檢測模型用於通過檢測輸入資料是否異常，從而識別出第一類資料；該分類模型用於對異常檢測模型識別出的第一類資料之外的其他資料進行分類。本實施例的分類模型是利用異常檢測模型識別出的異常樣本資料集訓練得到，由於異常檢測模型可以剔除大部分的第一類資料，並能快速區分出相比較大多數樣本而言異常的樣本，而剩餘的異常樣本可能包含了絕大多數的第二類資料，以及部分第一類資料。之後利用異常樣本進行分類模型訓練，既可以降低最終分類模型的打分事件量，又可以提供相對平衡的樣本資料集供分類模型訓練。由於異常樣本資料集中第一類資料和第二類資料的比例相對均衡，因此能夠訓練得到準確率較高的分類模型，可以結合這兩個部分提升資料識別能力。在具體應用時，可以線上部署異常檢測模型和分類模型，待識別資料首先輸入至異常檢測模型中，從而可以快速區分出該待識別資料是否異常，對於異常的資料，則進一步由分類模型準確地進行分類。接下來對本發明實施例進行詳細說明。　　首先對模型訓練過程進行說明，如圖1A所示，是本發明根據一示例性實施例顯示的一種模型訓練方法的示意圖，該模型訓練方法用於訓練異常檢測模型和分類模型。所述異常檢測模型用於檢測輸入資料是否異常，以檢測出第一類資料；所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類。　　該方法包括如下步驟：　　在步驟102中，通過如下方式訓練所述異常檢測模型：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。　　在步驟104中，通過如下方式訓練所述分類模型：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。　　本發明實施例中，採用第一類資料和第二類資料對資料類型進行區分，其中，第一類資料表示數量相對較多的一類資料，第二類資料表示數量相對較少的一類資料。在不同場景下，第一類資料和第二類資料可以根據具體場景的需要，代表相應場景中不同類型的資料。例如，以風險識別場景為例，低風險資料的安全資料量較大，而發生高風險的概率較低，高風險資料量較少，因此，第一類資料可以是指低風險的安全資料，第二類資料可以是指高風險資料。以帳戶盜用場景為例，正常行為的資料量較大，而發生帳戶盜用行為的概率較低，高風險資料量較少，因此，第一類資料可以是指正常行為資料，第二類資料可以是指帳戶盜用行為資料。實際應用中，可以根據具體場景而靈活確定。　　在模型訓練過程中，首先進行異常檢測模型的訓練。具體的，可以獲取歷史資料集，歷史資料集中包含了第一類資料和第二類資料，進一步地，可以結合業務經驗，選擇出包括有多個特徵的特徵集合，各特徵的組合表徵每一條資料的特點，在不同應用場景中可以根據業務需要選擇合適的特徵，例如風險識別場景中，特徵集合可以包括有歷史支付天數、支付金額、支付時刻、支付設備特徵或用戶使用習慣等等。通過特徵集合，可以對歷史資料集中每一條資料轉換為相應的用各特徵向量表示的樣本資料，從而獲得樣本資料集。本實施例中，為了區分，將用於訓練異常檢測模型的樣本資料集稱為第一樣本資料集。　　接著，利用所述第一樣本資料集對異常檢測模型進行訓練，具體的，可以是基於異常檢測演算法，確定初始化的異常檢測模型，利用所述第一樣本資料集進行訓練，得到所述異常檢測模型中的參數值。實際應用中，可以根據需要靈活選擇異常檢測演算法，例如支援向量聚類機、隔離樹演算法等等。　　以支援向量聚類機為例，支援向量聚類是一種無監督異常檢測方法，該方法可以把複雜維度的樣本映射到高維空間，使得樣本可以儘可能聚攏在一個區域中。如圖1B所示，是本發明根據一示例性實施例顯示的一種異常檢測的示意圖，圖1B中的圓圈表示超球體，被超球體包裹在內部的資料表示正常資料，用矩形表示，在超球體外部的資料為異常資料，用星狀圖形表示。本實施例中，模式越是相近的個體之間離得越近並接近中心，而模式異常或不同的個體會遠離中心。因此可以在映射好的高維空間中形成一超球體對樣本資料進行包裹，使儘可能多的樣本資料被包裹在超球體內部，在外部的剩餘樣本可以被視為異常資料。在實際使用過程中，可以根據需要確定超球體半徑R的約束，只需確保資料量較大的正常的第一類樣本資料被包裹在球體中，而外部的異常資料，與正常的第一類樣本資料相似度較低，有可能是第一類資料，也有可能是第二類資料。具體的異常資料選擇比例或異常模式的抓取力度可以通過支援向量聚類機的輸出分值來刻畫，根據實際應用場景，通過樣本資料集可訓練出合適的大小。　　本實施例中，當異常檢測模型訓練好並部署應用後，全量的樣本資料集可以通過異常檢測模型，由異常檢測模型可以篩選出其中的異常樣本資料集，而異常樣本資料集則可以用於訓練分類模型。接下來對分類模型的訓練過程進行說明。　　與異常檢測模型的訓練過程相同，分類模型的訓練同樣需要樣本資料集，本實施例中將用於分類模型訓練的樣本資料集稱為第二樣本資料集。實際應用中，第二樣本資料集可以與第一樣本資料集不同，也可以是相同的樣本資料集。　　具體訓練時，全量的第二樣本資料集可以通過異常檢測模型篩選出異常樣本資料集，由於進行分類模型訓練時，輸入的樣本資料集不再是全量，大量正常的第一類資料被剔除掉，只剩餘部分可能為第一類資料也可能為第二類資料的異常樣本，因此黑白樣本資料相對平衡，更有利於保證模型訓練和應用的一致性。之後，可利用所述異常樣本資料集對所述分類模型進行訓練，具體的，可以是基於分類演算法確定初始化的分類模型，利用所述異常樣本資料集進行訓練，得到所述分類模型中的參數值。實際應用中可以根據需要靈活選擇分類演算法，例如決策樹、貝葉斯分類演算法、人工神經網路、K-近鄰演算法或隨機森林分類演算法等等。　　在利用異常檢測模型篩選出異常樣本資料集後，由於異常樣本資料集具有的特徵是前述的特徵集合中的特徵，考慮到此時第一類資料和第二類資料的比例相對平衡，可以考慮嘗試最佳化特徵，以提高訓練速度。在一個可選的實現方式中，在利用所述異常樣本資料集對所述分類模型進行訓練前，所述方法還包括：　　基於特徵最佳化演算法最佳化所述異常樣本資料集。　　本實施例中，由於樣本較為均衡，可以嘗試考慮採用特徵最佳化演算法對異常樣本資料集所具有的特徵進行最佳化，以選擇出更優的特徵子集，獲得最佳化後的異常樣本資料集。作為一種典型方法，可以採用遺傳演算法進行最佳化。舉例來說，對所有的特徵進行二值編碼，1為選擇入模，0為拒絕入模，適應性函數(fitness function)可以採用模型的輸出分值與入模變數個數做一個平衡，例如採用貝葉斯資訊準則(BIC, beyesian information criterion)等等，實際應用中可以根據需要靈活選擇特徵最佳化演算法。　　上述過程關於模型的訓練過程，接下來對模型上線後的應用過程進行描述。如圖2所示，是本發明根據一示例性實施例顯示的一種資料類型的識別方法的示意圖，該方案可用於識別資料為第一類資料或第二類資料，該方法包括如下步驟：　　在步驟202中，獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料。　　在步驟204中，將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料。　　由前述模型訓練過程可知，異常檢測模型用於檢測輸入是否異常，而分類模型可用於識別輸入的異常的資料為第一類資料或第二類資料。因此，本實施例在需要對資料的類型進行識別時，可以獲取待識別資料，待識別資料具有與異常檢測模型檢測時所需的特徵。根據待識別資料所具有的特徵，首先利用異常檢測模型檢測所述待識別資料是否異常，若待識別資料被檢測為非異常，確定所述待識別資料為第一類資料；若為異常，則利用預設的分類模型識別所述待識別資料為第一類資料或第二類資料。　　其中，所述異常檢測模型通過如下方式預先訓練得到：　　獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；　　利用所述第一樣本資料集對異常檢測模型進行訓練。　　其中，所述分類模型通過如下方式預先訓練得到：　　通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；　　利用所述異常樣本資料集對所述分類模型進行訓練。　　在一個可選的實現方式中，在利用所述異常樣本資料集對所述分類模型進行訓練前，所述方法還包括：　　基於特徵最佳化演算法最佳化所述異常樣本資料集。　　上述兩個模型的訓練過程可參看圖1A所示實施例的說明，本實施例對此不再贅述。　　接下來以風險識別場景為例，對本發明實施例再次進行說明。如圖3A所示，是本發明根據一示例性實施例顯示的一種風險識別方法，用於識別資料為安全資料或風險資料，所述方法包括：　　在步驟302中，獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常；　　在步驟304中，若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；　　在步驟306中，若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。　　如圖3B所示，是本發明根據一示例性實施例顯示的模型訓練和風險識別方法的應用場景示意圖。本實施例可以構建一個異常檢測模型和分類模型結合的風險識別系統，用於對輸入資料進行風險識別，以識別輸入資料為低風險的正常資料還是風險資料。該方案具體關於異常檢測、特徵最佳化和有監督的分類學習。實際應用中，以上三個過程可以使用多種演算法。本實施例中，異常檢測以支援向量聚類(support vector clustering)為例，特徵最佳化以遺傳演算法(genetic algorithm)為例，有監督的分類學習以隨機森林為例進行描述。　　訓練過程包括：　　獲取歷史資料，首先結合業務場景，選擇出特徵集合刻畫風險，如歷史支付天數，支付設備特徵，用戶使用習慣等，根據歷史資料，確定包含了黑白樣本形成樣本資料集。　　利用樣本資料集對設定的異常檢測模型進行訓練。本實施例中，異常檢測採用支援向量聚類機為例，將樣本資料集輸入到支援向量聚類機中學習。支援向量聚類是一種無監督異常檢測方法，它可以把複雜維度的樣本映射到高維空間，使得樣本可以儘可能聚攏在一個區域中。聚攏的資料即為資料量較大的正常的一類資料，而沒有聚攏在中心區域的，則為異常資料。　　如圖1B所示，模式越是相近的個體之間離得越近並接近中心，而模式異常或不同的個體會遠離中心。因此可以在映射好的高維空間中形成一超球體對樣本進行包裹，使儘可能多的樣本被包裹在超球體內部，在外部的剩餘樣本可以被視為異常點。在實際使用過程中，可以根據需要靈活設定超球體半徑R的約束，只需確保正常樣本被包裹在球體中，而外部的異常樣本集可以包括真正的高危樣本和部分的低危樣本。因此，當模型訓練好並部署線上應用時，全量的樣本通過模型後，非異常樣本被直接識別為低危，異常樣本則輸入至下一環節進一步分析判別。具體的異常資料選擇比例或異常模式的抓取力度可以通過支援向量聚類機的輸出分值來刻畫，根據實際應用場景，通過樣本資料集可訓練出合適的大小。　　利用異常檢測模型對初始的樣本資料集進行檢測，檢測出的異常樣本資料集可對分類模型進行訓練。本實施例的分類模型以隨機森林分類器為例，異常樣本資料集可輸入到隨機森林分類器中訓練。在訓練分類模型之前，由於輸入的樣本不再是全量，黑白樣本相對平衡，更有利於保證模型訓練和應用的一致性。此時可以考慮採用特徵最佳化演算法對特徵集進行最佳化，選擇出更優的特徵集。作為一種典型方法，可以採用遺傳演算法進行最佳化。例如對所有的特徵進行二值編碼，1為選擇入模，0為拒絕入模，fitness function採用模型的輸出分值與入模變數個數做一個平衡，例如採用BIC(beyesian information criterion)。　　在具體應用時，可以獲取待識別資料，根據待識別資料的特徵，首先利用異常檢測模型檢測所述待識別資料是否異常，若被檢測為非異常，確定所述待識別資料為低風險的安全資料；若所述待識別資料被檢測為異常，利用預設的分類模型進一步識別所述待識別資料為低風險的安全資料或風險資料。　　與前述資料類型的識別、模型訓練、風險識別方法的實施例相對應，本發明還提供了資料類型的識別、模型訓練裝置、風險識別裝置及其所應用的電腦設備的實施例。　　本發明資料類型的識別裝置/模型訓練裝置/風險識別裝置的實施例都可以應用在電腦設備上。裝置實施例可以通過軟體實現，也可以通過硬體或者軟硬體結合的方式實現。以軟體實現為例，作為一個邏輯意義上的裝置，是通過其所在資料類型的識別/模型訓練/風險識別的處理器將非揮發性記憶體中對應的電腦程式指令讀取到記憶體中運行形成的。從硬體層面而言，如圖4所示，為本發明資料類型的識別裝置/模型訓練裝置/風險識別裝置所在電腦設備的一種硬體結構圖，除了圖4所示的處理器410、記憶體430、網路介面420、以及非揮發性記憶體440之外，實施例中裝置431所在的電腦設備，通常根據該電腦設備的實際功能，還可以包括其他硬體，對此不再贅述。　　如圖5所示，圖5是本發明根據一示例性實施例顯示的一種資料類型的識別裝置的方塊圖，用於識別資料為第一類資料或第二類資料，所述裝置包括：　　資料獲取模組51，用於：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料；　　類型確定模組52，用於：將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料。　　可選的，還包括異常檢測模型訓練模組，用於：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。　　可選的，還包括分類模型訓練模組，用於：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。　　可選的，所述裝置還包括最佳化模組，用於利用所述異常樣本資料集對所述分類模型進行訓練前，基於特徵最佳化演算法最佳化所述異常樣本資料集。　　如圖6所示，圖6是本發明根據一示例性實施例顯示的一種模型訓練裝置的方塊圖，用於訓練異常檢測模型和分類模型；　　所述異常檢測模型用於檢測出第一類資料；　　所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類；　　所述裝置包括：　　異常檢測模型訓練模組61，用於：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練；　　分類模型訓練模組62，用於：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。　　可選的，所述裝置還包括最佳化模組，用於在利用所述異常樣本資料集對所述分類模型進行訓練，基於特徵最佳化演算法最佳化所述異常樣本資料集。　　如圖7所示，圖7是本發明根據一示例性實施例顯示的一種風險識別裝置的方塊圖，所述裝置包括：　　資料獲取模組71，用於：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常；　　風險確定模組72，用於：若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。　　相應的，本發明還提供一種電腦設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：　　獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料；　　將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料。　　相應的，本發明還提供一種電腦設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：　　通過如下方式訓練所述異常檢測模型：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料；基於異常檢測演算法，確定初始化的異常檢測模型，利用所述第一樣本資料集進行訓練，得到所述異常檢測模型中的參數值；　　通過如下方式訓練所述分類模型：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；基於分類演算法，確定初始化的分類模型，利用所述異常樣本資料集進行訓練，得到所述分類模型中的參數值。　　相應的，本發明還提供一種電腦設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：　　獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常資料；　　若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；　　若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。　　上述裝置中各個模組的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程，在此不再贅述。　　對於裝置實施例而言，由於其基本對應於方法實施例，所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的，其中所述作為分離部件說明的模組可以是或者也可以不是實體上分開的，作為模組顯示的部件可以是或者也可以不是實體模組，即可以位於一個地方，或者也可以分佈到多個網路模組上。可以根據實際的需要選擇其中的部分或者全部模組來實現本發明方案的目的。本領域普通技術人員在不付出進步性勞動的情況下，即可以理解並實施。　　本領域技術人員在考慮說明書及實踐這裡申請的發明後，將容易想到本發明的其它實施方案。本發明意於涵蓋本發明的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本發明的一般性原理並包括本發明未申請的本技術領域中的眾所皆知常識或慣用技術手段。說明書和實施例僅被視為示例性的，本發明的真正範圍和精神由下面的申請專利範圍指出。　　應當理解的是，本發明並不局限於上面已經描述並在附圖中顯示的精確結構，並且可以在不脫離其範圍進行各種修改和改變。本發明的範圍僅由所附的申請專利範圍來限制。　　以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明保護的範圍之內。

102‧‧‧步驟

104‧‧‧步驟

202‧‧‧步驟

204‧‧‧步驟

302‧‧‧步驟

304‧‧‧步驟

306‧‧‧步驟

410‧‧‧處理器

420‧‧‧網路介面

430‧‧‧記憶體

431‧‧‧裝置

440‧‧‧非揮發性記憶體

51‧‧‧資料獲取模組

52‧‧‧類型確定模組

61‧‧‧異常檢測模型訓練模組

62‧‧‧分類模型訓練模組

71‧‧‧資料獲取模組

72‧‧‧風險確定模組

此處的附圖被併入說明書中並構成本說明書的一部分，顯示了符合本發明的實施例，並與說明書一起用於解釋本發明的原理。　　圖1A是本發明根據一示例性實施例顯示的一種模型訓練方法的示意圖。　　圖1B是本發明根據一示例性實施例顯示的一種異常檢測的示意圖。　　圖2是本發明根據一示例性實施例顯示的一種資料類型的識別方法的示意圖。　　圖3A是本發明根據一示例性實施例顯示的風險識別方法的示意圖。　　圖3B是本發明根據一示例性實施例顯示的模型訓練和風險識別方法的應用場景示意圖。　　圖4是本發明資料類型的識別裝置/模型訓練裝置/風險識別裝置所在電腦設備的一種硬體結構圖。　　圖5是本發明根據一示例性實施例顯示的一種資料類型的識別裝置的方塊圖。　　圖6是本發明根據一示例性實施例顯示的一種模型訓練裝置的方塊圖。　　圖7是本發明根據一示例性實施例顯示的一種風險識別裝置的方塊圖。

Claims

一種資料類型的識別方法，用於識別資料為第一類資料或第二類資料，所述方法包括：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料；將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料；其中，所述異常檢測模型通過如下方式預先訓練得到：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。
根據申請專利範圍第1項所述的方法，所述分類模型通過如下方式預先訓練得到：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。
根據申請專利範圍第1項所述的方法，在利用所述異常樣本資料集對所述分類模型進行訓練前，所述方法還包括：基於特徵最佳化演算法最佳化所述異常樣本資料集。
一種模型訓練方法，用於訓練異常檢測模型和分類模型；所述異常檢測模型用於檢測出第一類資料；所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類；所述方法包括：通過如下方式訓練所述異常檢測模型：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料；利用所述第一樣本資料集對異常檢測模型進行訓練；通過如下方式訓練所述分類模型：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對分類模型進行訓練。
根據申請專利範圍第4項所述的方法，在利用所述異常樣本資料集對分類模型進行訓練前，所述方法還包括：基於特徵最佳化演算法最佳化所述異常樣本資料集。
一種風險識別方法，用於識別資料為安全資料或風險資料，所述方法包括：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常；若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到；其中，所述異常檢測模型通過如下方式預先訓練得到：獲取第一樣本資料集，所述第一樣本資料集中安全資料的數量大於風險資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。
根據申請專利範圍第6項所述的方法，所述分類模型通過如下方式預先訓練得到：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。
一種資料類型的識別裝置，用於識別資料為第一類資料或第二類資料，所述裝置包括：資料獲取模組，用於：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料；類型確定模組，用於：將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料；其中，所述裝置還包括異常檢測模型訓練模組，用於：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。
根據申請專利範圍第8項所述的裝置，還包括分類模型訓練模組，用於：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。
一種模型訓練裝置，用於訓練異常檢測模型和分類模型；所述異常檢測模型用於檢測出第一類資料；所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類；所述裝置包括：異常檢測模型訓練模組，用於：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料；利用所述第一樣本資料集對異常檢測模型進行訓練；分類模型訓練模組，用於：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。
一種風險識別裝置，用於識別資料為安全資料或風險資料，所述裝置包括：資料獲取模組，用於：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常；風險確定模組，用於：若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到；其中，所述裝置還包括異常檢測模型訓練模組，用於：獲取第一樣本資料集，所述第一樣本資料集中安全資料的數量大於風險資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。
一種電腦設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料；將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別，該分類模型將所述其它資料分類為第一類資料和第二類資料；其中，所述異常檢測模型通過如下方式預先訓練得到：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。
一種電腦設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：通過如下方式訓練所述異常檢測模型：獲取第一樣本資料集，所述第一樣本資料集中第一類資料的數量大於第二類資料；利用所述第一樣本資料集對異常檢測模型進行訓練；通過如下方式訓練所述分類模型：通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集；利用所述異常樣本資料集對所述分類模型進行訓練。
一種電腦設備，包括：處理器；用於儲存處理器可執行指令的記憶體；其中，所述處理器被配置為：獲取待識別資料，利用預設的異常檢測模型檢測所述待識別資料是否異常資料；若所述待識別資料被檢測為非異常，確定所述待識別資料為安全資料；若所述待識別資料被檢測為異常，利用預設的分類模型識別所述待識別資料為安全資料或風險資料；其中，所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到；其中，所述異常檢測模型通過如下方式預先訓練得到：獲取第一樣本資料集，所述第一樣本資料集中安全資料的數量大於風險資料的數量；利用所述第一樣本資料集對異常檢測模型進行訓練。