TWI664535B - 資料類型的識別、模型訓練、風險識別方法、裝置及設備 - Google Patents

資料類型的識別、模型訓練、風險識別方法、裝置及設備 Download PDF

Info

Publication number
TWI664535B
TWI664535B TW107108576A TW107108576A TWI664535B TW I664535 B TWI664535 B TW I664535B TW 107108576 A TW107108576 A TW 107108576A TW 107108576 A TW107108576 A TW 107108576A TW I664535 B TWI664535 B TW I664535B
Authority
TW
Taiwan
Prior art keywords
data
type
data set
identified
sample data
Prior art date
Application number
TW107108576A
Other languages
English (en)
Other versions
TW201905728A (zh
Inventor
程羽
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201905728A publication Critical patent/TW201905728A/zh
Application granted granted Critical
Publication of TWI664535B publication Critical patent/TWI664535B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Fuzzy Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本發明提供一種資料類型的識別、模型訓練方法、裝置及電腦設備,該模型訓練方法包括:獲取第一樣本資料集,利用所述第一樣本資料集對異常檢測模型進行訓練;通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集,利用所述異常樣本資料集對分類模型進行訓練。本實施例能降低分類模型的打分事件量,也能提供相對平衡的樣本資料集進行訓練,得到準確率較高的分類模型。具體應用時,待識別資料先輸入至異常檢測模型中,能快速區分出是否為第一類資料,對於異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,線上進行資料識別速度較快。

Description

資料類型的識別、模型訓練、風險識別方法、裝置及設備
本發明關於資料分析技術領域,尤其關於資料類型的識別、模型訓練、風險識別方法、裝置及設備。
在資料分析領域中,經常需要識別資料的類型。例如,識別用戶帳戶是否被盜用、識別交易是否為風險交易、識別用戶行為是否為欺詐行為等等。相關技術中,通常根據歷史資料確定黑白樣本,其中,白樣本表示歷史資料中正常的一類樣本,黑樣本表示歷史資料中出現帳戶盜用、高風險交易或欺詐行為等等事件的另一類樣本。之後可基於分類演算法,利用黑白樣本訓練得到分類器。   然而現實生活中,相對於正常事件,帳戶盜用、高風險或欺詐行為的事件的出現概率較低,因此,黑白樣本在多數的場景下都是嚴重的不平衡,黑樣本占總體樣本的比例較低,因此會給分類器的訓練帶來較大挑戰,分類器的識別準確率可能較低。
為克服相關技術中存在的問題,本發明提供了資料類型的識別、模型訓練、風險識別方法、裝置及設備。   一種資料類型的識別方法,用於識別資料為第一類資料或第二類資料,所述方法包括:   獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料;   將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料。   可選的,所述異常檢測模型通過如下方式預先訓練得到:   獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;   利用所述第一樣本資料集對異常檢測模型進行訓練。   可選的,所述分類模型通過如下方式預先訓練得到:   通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;   利用所述異常樣本資料集對所述分類模型進行訓練。   可選的,在利用所述異常樣本資料集對所述分類模型進行訓練前,所述方法還包括:   基於特徵最佳化演算法最佳化所述異常樣本資料集。   一種模型訓練方法,用於訓練異常檢測模型和分類模型;   所述異常檢測模型用於檢測輸入資料出第一類資料;   所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類;   所述方法包括:   通過如下方式訓練所述異常檢測模型:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料;利用所述第一樣本資料集對異常檢測模型進行訓練;   通過如下方式訓練所述分類模型:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。   可選的,在利用所述異常樣本資料集對所述分類模型進行訓練前,所述方法還包括:   基於特徵最佳化演算法最佳化所述異常樣本資料集。   一種風險識別方法,用於識別資料為安全資料或風險資料,所述方法包括:   獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常資料;   若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;   若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。   一種資料類型的識別裝置,用於識別資料為第一類資料或第二類資料,所述裝置包括:   資料獲取模組,用於:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料;   類型確定模組,用於:將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料。   可選的,還包括異常檢測模型訓練模組,用於:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。   可選的,還包括分類模型訓練模組,用於:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。   可選的,所述裝置還包括最佳化模組,用於在利用所述異常樣本資料集對所述分類模型進行訓練前,基於特徵最佳化演算法最佳化所述異常樣本資料集。   一種模型訓練裝置,用於訓練異常檢測模型和分類模型;   所述異常檢測模型用於檢測輸入資料為第一類資料;   所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類;   所述裝置包括:   異常檢測模型訓練模組,用於:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料;利用所述第一樣本資料集對異常檢測模型進行訓練;   分類模型訓練模組,用於:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。   可選的,所述裝置還包括最佳化模組,用於在利用所述異常樣本資料集對所述分類模型進行訓練前,基於特徵最佳化演算法最佳化所述異常樣本資料集。   一種風險識別裝置,用於識別資料為安全資料或風險資料,所述裝置包括:   資料獲取模組,用於:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常;   風險確定模組,用於:若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。   一種電腦設備,包括:   處理器;   用於儲存處理器可執行指令的記憶體;   其中,所述處理器被配置為:   獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料;   將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料。   一種電腦設備,包括:   處理器;   用於儲存處理器可執行指令的記憶體;   其中,所述處理器被配置為:   通過如下方式訓練所述異常檢測模型:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料;利用所述第一樣本資料集對異常檢測模型進行訓練;   通過如下方式訓練所述分類模型:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。   一種電腦設備,包括:   處理器;   用於儲存處理器可執行指令的記憶體;   其中,所述處理器被配置為:   獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常資料;   若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;   若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。   本發明的實施例提供的技術方案可以包括以下有益效果:   本發明實施例中,在訓練過程中,首先利用第一樣本資料集訓練得到異常檢測模型,基於此,全量的第二樣本資料集可以篩選出異常樣本資料集。由於分類模型是利用異常檢測模型識別出的異常樣本資料集訓練得到,因此對於分類模型,可以剔除大部分的第一類資料,快速區分出相比較大多數樣本而言異常的樣本,而剩餘的異常樣本可能包含了絕大多數的第二類資料,以及部分第一類資料。之後利用異常樣本進行分類模型訓練,既可以降低最終分類模型的打分事件量,又可以提供相對平衡的樣本資料集供分類模型訓練,由於異常樣本資料集中第一類資料和第二類資料的比例相對均衡,因此能夠訓練得到準確率較高的分類模型,因此可以結合這兩個部分提升資料識別能力。在具體應用時,可以線上部署異常檢測模型和分類模型,待識別資料首先輸入至異常檢測模型中,從而可以快速區分出該待識別資料是否為異常,如果異常,則進一步由分類模型進行分類。   應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,並不能限制本發明。
這裡將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述關於附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本發明相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本發明的一些態樣相一致的裝置和方法的例子。   在本發明使用的術語是僅僅出於描述特定實施例的目的,而非意於限制本發明。在本發明和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也意於包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術語“和/或”是指並包含一個或多個相關的列出專案的任何或所有可能組合。   應當理解,儘管在本發明可能採用術語第一、第二、第三等來描述各種資訊,但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本發明範圍的情況下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。取決於語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。   在資料分析領域中,經常需要識別資料的類型。例如,識別用戶帳戶是否被盜用、識別交易是否為風險交易、識別用戶行為是否為欺詐行為等等。   以風險識別為例,風險識別是風控體系中重要的組成部分,是風險決策的主要依據來源。隨著機器學習和資料採擷技術的普及和進步,利用模型進行風險識別成為一種趨勢。一種典型的模型風險識別是利用有監督學習演算法,根據歷史行為和業務經驗知識,構建模型及入模變數,再以黑白標籤訓練模型。最後訓練好的模型部署於線上,即時對風險進行判別。這類方案相比於傳統基於規則的識別不僅更加精確,而且難以被輕易攻破,但仍舊存在問題和挑戰:   一態樣,黑白樣本在多數的場景下嚴重不平衡。在現實生活中,大部分的時間都可以認為是安全的或者低風險的,因此這一類正常資料(白樣本)的數量非常大。相比較而言,高風險事件的這一類資料(黑樣本)只占很小部分,如萬分之一甚至比例更低。因此,在利用歷史資料確定樣本時,樣本中的黑白比例會有嚴重的不平衡情況。雖然很多方案會通過取樣、懲罰等技術提高黑樣本占總體訓練樣本的比例,但無法從根本上解決樣本不平衡給分類器帶來的挑戰,所訓練的分類器的準確率可能無法保證。   另一態樣,線上高併發巨量資料對分類器的性能不斷提出更高的要求。線上模型需要在短時間內,如200ms內識別出風險,否則會影響系統的穩定和用戶體驗,風險形勢和用戶體驗對快速識別的精準性和性能正在提出更多的挑戰。   基於此,本發明實施例一態樣提供了一種模型訓練方案,該模型訓練方案能訓練有異常檢測模型和分類模型,該異常檢測模型用於通過檢測輸入資料是否異常,從而識別出第一類資料;該分類模型用於對異常檢測模型識別出的第一類資料之外的其他資料進行分類。本實施例的分類模型是利用異常檢測模型識別出的異常樣本資料集訓練得到,由於異常檢測模型可以剔除大部分的第一類資料,並能快速區分出相比較大多數樣本而言異常的樣本,而剩餘的異常樣本可能包含了絕大多數的第二類資料,以及部分第一類資料。之後利用異常樣本進行分類模型訓練,既可以降低最終分類模型的打分事件量,又可以提供相對平衡的樣本資料集供分類模型訓練。由於異常樣本資料集中第一類資料和第二類資料的比例相對均衡,因此能夠訓練得到準確率較高的分類模型,可以結合這兩個部分提升資料識別能力。在具體應用時,可以線上部署異常檢測模型和分類模型,待識別資料首先輸入至異常檢測模型中,從而可以快速區分出該待識別資料是否異常,對於異常的資料,則進一步由分類模型準確地進行分類。接下來對本發明實施例進行詳細說明。   首先對模型訓練過程進行說明,如圖1A所示,是本發明根據一示例性實施例顯示的一種模型訓練方法的示意圖,該模型訓練方法用於訓練異常檢測模型和分類模型。所述異常檢測模型用於檢測輸入資料是否異常,以檢測出第一類資料;所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類。   該方法包括如下步驟:   在步驟102中,通過如下方式訓練所述異常檢測模型:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。   在步驟104中,通過如下方式訓練所述分類模型:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。   本發明實施例中,採用第一類資料和第二類資料對資料類型進行區分,其中,第一類資料表示數量相對較多的一類資料,第二類資料表示數量相對較少的一類資料。在不同場景下,第一類資料和第二類資料可以根據具體場景的需要,代表相應場景中不同類型的資料。例如,以風險識別場景為例,低風險資料的安全資料量較大,而發生高風險的概率較低,高風險資料量較少,因此,第一類資料可以是指低風險的安全資料,第二類資料可以是指高風險資料。以帳戶盜用場景為例,正常行為的資料量較大,而發生帳戶盜用行為的概率較低,高風險資料量較少,因此,第一類資料可以是指正常行為資料,第二類資料可以是指帳戶盜用行為資料。實際應用中,可以根據具體場景而靈活確定。   在模型訓練過程中,首先進行異常檢測模型的訓練。具體的,可以獲取歷史資料集,歷史資料集中包含了第一類資料和第二類資料,進一步地,可以結合業務經驗,選擇出包括有多個特徵的特徵集合,各特徵的組合表徵每一條資料的特點,在不同應用場景中可以根據業務需要選擇合適的特徵,例如風險識別場景中,特徵集合可以包括有歷史支付天數、支付金額、支付時刻、支付設備特徵或用戶使用習慣等等。通過特徵集合,可以對歷史資料集中每一條資料轉換為相應的用各特徵向量表示的樣本資料,從而獲得樣本資料集。本實施例中,為了區分,將用於訓練異常檢測模型的樣本資料集稱為第一樣本資料集。   接著,利用所述第一樣本資料集對異常檢測模型進行訓練,具體的,可以是基於異常檢測演算法,確定初始化的異常檢測模型,利用所述第一樣本資料集進行訓練,得到所述異常檢測模型中的參數值。實際應用中,可以根據需要靈活選擇異常檢測演算法,例如支援向量聚類機、隔離樹演算法等等。   以支援向量聚類機為例,支援向量聚類是一種無監督異常檢測方法,該方法可以把複雜維度的樣本映射到高維空間,使得樣本可以儘可能聚攏在一個區域中。如圖1B所示,是本發明根據一示例性實施例顯示的一種異常檢測的示意圖,圖1B中的圓圈表示超球體,被超球體包裹在內部的資料表示正常資料,用矩形表示,在超球體外部的資料為異常資料,用星狀圖形表示。本實施例中,模式越是相近的個體之間離得越近並接近中心,而模式異常或不同的個體會遠離中心。因此可以在映射好的高維空間中形成一超球體對樣本資料進行包裹,使儘可能多的樣本資料被包裹在超球體內部,在外部的剩餘樣本可以被視為異常資料。在實際使用過程中,可以根據需要確定超球體半徑R的約束,只需確保資料量較大的正常的第一類樣本資料被包裹在球體中,而外部的異常資料,與正常的第一類樣本資料相似度較低,有可能是第一類資料,也有可能是第二類資料。具體的異常資料選擇比例或異常模式的抓取力度可以通過支援向量聚類機的輸出分值來刻畫,根據實際應用場景,通過樣本資料集可訓練出合適的大小。   本實施例中,當異常檢測模型訓練好並部署應用後,全量的樣本資料集可以通過異常檢測模型,由異常檢測模型可以篩選出其中的異常樣本資料集,而異常樣本資料集則可以用於訓練分類模型。接下來對分類模型的訓練過程進行說明。   與異常檢測模型的訓練過程相同,分類模型的訓練同樣需要樣本資料集,本實施例中將用於分類模型訓練的樣本資料集稱為第二樣本資料集。實際應用中,第二樣本資料集可以與第一樣本資料集不同,也可以是相同的樣本資料集。   具體訓練時,全量的第二樣本資料集可以通過異常檢測模型篩選出異常樣本資料集,由於進行分類模型訓練時,輸入的樣本資料集不再是全量,大量正常的第一類資料被剔除掉,只剩餘部分可能為第一類資料也可能為第二類資料的異常樣本,因此黑白樣本資料相對平衡,更有利於保證模型訓練和應用的一致性。之後,可利用所述異常樣本資料集對所述分類模型進行訓練,具體的,可以是基於分類演算法確定初始化的分類模型,利用所述異常樣本資料集進行訓練,得到所述分類模型中的參數值。實際應用中可以根據需要靈活選擇分類演算法,例如決策樹、貝葉斯分類演算法、人工神經網路、K-近鄰演算法或隨機森林分類演算法等等。   在利用異常檢測模型篩選出異常樣本資料集後,由於異常樣本資料集具有的特徵是前述的特徵集合中的特徵,考慮到此時第一類資料和第二類資料的比例相對平衡,可以考慮嘗試最佳化特徵,以提高訓練速度。在一個可選的實現方式中,在利用所述異常樣本資料集對所述分類模型進行訓練前,所述方法還包括:   基於特徵最佳化演算法最佳化所述異常樣本資料集。   本實施例中,由於樣本較為均衡,可以嘗試考慮採用特徵最佳化演算法對異常樣本資料集所具有的特徵進行最佳化,以選擇出更優的特徵子集,獲得最佳化後的異常樣本資料集。作為一種典型方法,可以採用遺傳演算法進行最佳化。舉例來說,對所有的特徵進行二值編碼,1為選擇入模,0為拒絕入模,適應性函數(fitness function)可以採用模型的輸出分值與入模變數個數做一個平衡,例如採用貝葉斯資訊準則(BIC, beyesian information criterion)等等,實際應用中可以根據需要靈活選擇特徵最佳化演算法。   上述過程關於模型的訓練過程,接下來對模型上線後的應用過程進行描述。如圖2所示,是本發明根據一示例性實施例顯示的一種資料類型的識別方法的示意圖,該方案可用於識別資料為第一類資料或第二類資料,該方法包括如下步驟:   在步驟202中,獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料。   在步驟204中,將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料。   由前述模型訓練過程可知,異常檢測模型用於檢測輸入是否異常,而分類模型可用於識別輸入的異常的資料為第一類資料或第二類資料。因此,本實施例在需要對資料的類型進行識別時,可以獲取待識別資料,待識別資料具有與異常檢測模型檢測時所需的特徵。根據待識別資料所具有的特徵,首先利用異常檢測模型檢測所述待識別資料是否異常,若待識別資料被檢測為非異常,確定所述待識別資料為第一類資料;若為異常,則利用預設的分類模型識別所述待識別資料為第一類資料或第二類資料。   其中,所述異常檢測模型通過如下方式預先訓練得到:   獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;   利用所述第一樣本資料集對異常檢測模型進行訓練。   其中,所述分類模型通過如下方式預先訓練得到:   通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;   利用所述異常樣本資料集對所述分類模型進行訓練。   在一個可選的實現方式中,在利用所述異常樣本資料集對所述分類模型進行訓練前,所述方法還包括:   基於特徵最佳化演算法最佳化所述異常樣本資料集。   上述兩個模型的訓練過程可參看圖1A所示實施例的說明,本實施例對此不再贅述。   接下來以風險識別場景為例,對本發明實施例再次進行說明。如圖3A所示,是本發明根據一示例性實施例顯示的一種風險識別方法,用於識別資料為安全資料或風險資料,所述方法包括:   在步驟302中,獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常;   在步驟304中,若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;   在步驟306中,若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。   如圖3B所示,是本發明根據一示例性實施例顯示的模型訓練和風險識別方法的應用場景示意圖。本實施例可以構建一個異常檢測模型和分類模型結合的風險識別系統,用於對輸入資料進行風險識別,以識別輸入資料為低風險的正常資料還是風險資料。該方案具體關於異常檢測、特徵最佳化和有監督的分類學習。實際應用中,以上三個過程可以使用多種演算法。本實施例中,異常檢測以支援向量聚類(support vector clustering)為例,特徵最佳化以遺傳演算法(genetic algorithm)為例,有監督的分類學習以隨機森林為例進行描述。   訓練過程包括:   獲取歷史資料,首先結合業務場景,選擇出特徵集合刻畫風險,如歷史支付天數,支付設備特徵,用戶使用習慣等,根據歷史資料,確定包含了黑白樣本形成樣本資料集。   利用樣本資料集對設定的異常檢測模型進行訓練。本實施例中,異常檢測採用支援向量聚類機為例,將樣本資料集輸入到支援向量聚類機中學習。支援向量聚類是一種無監督異常檢測方法,它可以把複雜維度的樣本映射到高維空間,使得樣本可以儘可能聚攏在一個區域中。聚攏的資料即為資料量較大的正常的一類資料,而沒有聚攏在中心區域的,則為異常資料。   如圖1B所示,模式越是相近的個體之間離得越近並接近中心,而模式異常或不同的個體會遠離中心。因此可以在映射好的高維空間中形成一超球體對樣本進行包裹,使儘可能多的樣本被包裹在超球體內部,在外部的剩餘樣本可以被視為異常點。在實際使用過程中,可以根據需要靈活設定超球體半徑R的約束,只需確保正常樣本被包裹在球體中,而外部的異常樣本集可以包括真正的高危樣本和部分的低危樣本。因此,當模型訓練好並部署線上應用時,全量的樣本通過模型後,非異常樣本被直接識別為低危,異常樣本則輸入至下一環節進一步分析判別。具體的異常資料選擇比例或異常模式的抓取力度可以通過支援向量聚類機的輸出分值來刻畫,根據實際應用場景,通過樣本資料集可訓練出合適的大小。   利用異常檢測模型對初始的樣本資料集進行檢測,檢測出的異常樣本資料集可對分類模型進行訓練。本實施例的分類模型以隨機森林分類器為例,異常樣本資料集可輸入到隨機森林分類器中訓練。在訓練分類模型之前,由於輸入的樣本不再是全量,黑白樣本相對平衡,更有利於保證模型訓練和應用的一致性。此時可以考慮採用特徵最佳化演算法對特徵集進行最佳化,選擇出更優的特徵集。作為一種典型方法,可以採用遺傳演算法進行最佳化。例如對所有的特徵進行二值編碼,1為選擇入模,0為拒絕入模,fitness function採用模型的輸出分值與入模變數個數做一個平衡,例如採用BIC(beyesian information criterion)。   在具體應用時,可以獲取待識別資料,根據待識別資料的特徵,首先利用異常檢測模型檢測所述待識別資料是否異常,若被檢測為非異常,確定所述待識別資料為低風險的安全資料;若所述待識別資料被檢測為異常,利用預設的分類模型進一步識別所述待識別資料為低風險的安全資料或風險資料。   與前述資料類型的識別、模型訓練、風險識別方法的實施例相對應,本發明還提供了資料類型的識別、模型訓練裝置、風險識別裝置及其所應用的電腦設備的實施例。   本發明資料類型的識別裝置/模型訓練裝置/風險識別裝置的實施例都可以應用在電腦設備上。裝置實施例可以通過軟體實現,也可以通過硬體或者軟硬體結合的方式實現。以軟體實現為例,作為一個邏輯意義上的裝置,是通過其所在資料類型的識別/模型訓練/風險識別的處理器將非揮發性記憶體中對應的電腦程式指令讀取到記憶體中運行形成的。從硬體層面而言,如圖4所示,為本發明資料類型的識別裝置/模型訓練裝置/風險識別裝置所在電腦設備的一種硬體結構圖,除了圖4所示的處理器410、記憶體430、網路介面420、以及非揮發性記憶體440之外,實施例中裝置431所在的電腦設備,通常根據該電腦設備的實際功能,還可以包括其他硬體,對此不再贅述。   如圖5所示,圖5是本發明根據一示例性實施例顯示的一種資料類型的識別裝置的方塊圖,用於識別資料為第一類資料或第二類資料,所述裝置包括:   資料獲取模組51,用於:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料;   類型確定模組52,用於:將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料。   可選的,還包括異常檢測模型訓練模組,用於:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。   可選的,還包括分類模型訓練模組,用於:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。   可選的,所述裝置還包括最佳化模組,用於利用所述異常樣本資料集對所述分類模型進行訓練前,基於特徵最佳化演算法最佳化所述異常樣本資料集。   如圖6所示,圖6是本發明根據一示例性實施例顯示的一種模型訓練裝置的方塊圖,用於訓練異常檢測模型和分類模型;   所述異常檢測模型用於檢測出第一類資料;   所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類;   所述裝置包括:   異常檢測模型訓練模組61,用於:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練;   分類模型訓練模組62,用於:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。   可選的,所述裝置還包括最佳化模組,用於在利用所述異常樣本資料集對所述分類模型進行訓練,基於特徵最佳化演算法最佳化所述異常樣本資料集。   如圖7所示,圖7是本發明根據一示例性實施例顯示的一種風險識別裝置的方塊圖,所述裝置包括:   資料獲取模組71,用於:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常;   風險確定模組72,用於:若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。   相應的,本發明還提供一種電腦設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:   獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料;   將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料。   相應的,本發明還提供一種電腦設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:   通過如下方式訓練所述異常檢測模型:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料;基於異常檢測演算法,確定初始化的異常檢測模型,利用所述第一樣本資料集進行訓練,得到所述異常檢測模型中的參數值;   通過如下方式訓練所述分類模型:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;基於分類演算法,確定初始化的分類模型,利用所述異常樣本資料集進行訓練,得到所述分類模型中的參數值。   相應的,本發明還提供一種電腦設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:   獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常資料;   若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;   若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到。   上述裝置中各個模組的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程,在此不再贅述。   對於裝置實施例而言,由於其基本對應於方法實施例,所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的模組可以是或者也可以不是實體上分開的,作為模組顯示的部件可以是或者也可以不是實體模組,即可以位於一個地方,或者也可以分佈到多個網路模組上。可以根據實際的需要選擇其中的部分或者全部模組來實現本發明方案的目的。本領域普通技術人員在不付出進步性勞動的情況下,即可以理解並實施。   本領域技術人員在考慮說明書及實踐這裡申請的發明後,將容易想到本發明的其它實施方案。本發明意於涵蓋本發明的任何變型、用途或者適應性變化,這些變型、用途或者適應性變化遵循本發明的一般性原理並包括本發明未申請的本技術領域中的眾所皆知常識或慣用技術手段。說明書和實施例僅被視為示例性的,本發明的真正範圍和精神由下面的申請專利範圍指出。   應當理解的是,本發明並不局限於上面已經描述並在附圖中顯示的精確結構,並且可以在不脫離其範圍進行各種修改和改變。本發明的範圍僅由所附的申請專利範圍來限制。   以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的範圍之內。
102‧‧‧步驟
104‧‧‧步驟
202‧‧‧步驟
204‧‧‧步驟
302‧‧‧步驟
304‧‧‧步驟
306‧‧‧步驟
410‧‧‧處理器
420‧‧‧網路介面
430‧‧‧記憶體
431‧‧‧裝置
440‧‧‧非揮發性記憶體
51‧‧‧資料獲取模組
52‧‧‧類型確定模組
61‧‧‧異常檢測模型訓練模組
62‧‧‧分類模型訓練模組
71‧‧‧資料獲取模組
72‧‧‧風險確定模組
此處的附圖被併入說明書中並構成本說明書的一部分,顯示了符合本發明的實施例,並與說明書一起用於解釋本發明的原理。   圖1A是本發明根據一示例性實施例顯示的一種模型訓練方法的示意圖。   圖1B是本發明根據一示例性實施例顯示的一種異常檢測的示意圖。   圖2是本發明根據一示例性實施例顯示的一種資料類型的識別方法的示意圖。   圖3A是本發明根據一示例性實施例顯示的風險識別方法的示意圖。   圖3B是本發明根據一示例性實施例顯示的模型訓練和風險識別方法的應用場景示意圖。   圖4是本發明資料類型的識別裝置/模型訓練裝置/風險識別裝置所在電腦設備的一種硬體結構圖。   圖5是本發明根據一示例性實施例顯示的一種資料類型的識別裝置的方塊圖。   圖6是本發明根據一示例性實施例顯示的一種模型訓練裝置的方塊圖。   圖7是本發明根據一示例性實施例顯示的一種風險識別裝置的方塊圖。

Claims (14)

  1. 一種資料類型的識別方法,用於識別資料為第一類資料或第二類資料,所述方法包括:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料;將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料;其中,所述異常檢測模型通過如下方式預先訓練得到:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。
  2. 根據申請專利範圍第1項所述的方法,所述分類模型通過如下方式預先訓練得到:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。
  3. 根據申請專利範圍第1項所述的方法,在利用所述異常樣本資料集對所述分類模型進行訓練前,所述方法還包括:基於特徵最佳化演算法最佳化所述異常樣本資料集。
  4. 一種模型訓練方法,用於訓練異常檢測模型和分類模型;所述異常檢測模型用於檢測出第一類資料;所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類;所述方法包括:通過如下方式訓練所述異常檢測模型:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料;利用所述第一樣本資料集對異常檢測模型進行訓練;通過如下方式訓練所述分類模型:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對分類模型進行訓練。
  5. 根據申請專利範圍第4項所述的方法,在利用所述異常樣本資料集對分類模型進行訓練前,所述方法還包括:基於特徵最佳化演算法最佳化所述異常樣本資料集。
  6. 一種風險識別方法,用於識別資料為安全資料或風險資料,所述方法包括:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常;若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到;其中,所述異常檢測模型通過如下方式預先訓練得到:獲取第一樣本資料集,所述第一樣本資料集中安全資料的數量大於風險資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。
  7. 根據申請專利範圍第6項所述的方法,所述分類模型通過如下方式預先訓練得到:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。
  8. 一種資料類型的識別裝置,用於識別資料為第一類資料或第二類資料,所述裝置包括:資料獲取模組,用於:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料;類型確定模組,用於:將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料;其中,所述裝置還包括異常檢測模型訓練模組,用於:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。
  9. 根據申請專利範圍第8項所述的裝置,還包括分類模型訓練模組,用於:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。
  10. 一種模型訓練裝置,用於訓練異常檢測模型和分類模型;所述異常檢測模型用於檢測出第一類資料;所述分類模型用於對異常檢測模型檢測出的第一類資料之外的其他資料進行分類;所述裝置包括:異常檢測模型訓練模組,用於:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料;利用所述第一樣本資料集對異常檢測模型進行訓練;分類模型訓練模組,用於:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。
  11. 一種風險識別裝置,用於識別資料為安全資料或風險資料,所述裝置包括:資料獲取模組,用於:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常;風險確定模組,用於:若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到;其中,所述裝置還包括異常檢測模型訓練模組,用於:獲取第一樣本資料集,所述第一樣本資料集中安全資料的數量大於風險資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。
  12. 一種電腦設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否為第一類資料;將異常檢測模型識別出的第一類資料之外的其他資料輸入到分類模型進行識別,該分類模型將所述其它資料分類為第一類資料和第二類資料;其中,所述異常檢測模型通過如下方式預先訓練得到:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。
  13. 一種電腦設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:通過如下方式訓練所述異常檢測模型:獲取第一樣本資料集,所述第一樣本資料集中第一類資料的數量大於第二類資料;利用所述第一樣本資料集對異常檢測模型進行訓練;通過如下方式訓練所述分類模型:通過所述異常檢測模型從第二樣本資料集中檢測出異常樣本資料集;利用所述異常樣本資料集對所述分類模型進行訓練。
  14. 一種電腦設備,包括:處理器;用於儲存處理器可執行指令的記憶體;其中,所述處理器被配置為:獲取待識別資料,利用預設的異常檢測模型檢測所述待識別資料是否異常資料;若所述待識別資料被檢測為非異常,確定所述待識別資料為安全資料;若所述待識別資料被檢測為異常,利用預設的分類模型識別所述待識別資料為安全資料或風險資料;其中,所述分類模型預先利用所述異常檢測模型識別出的異常樣本資料集訓練得到;其中,所述異常檢測模型通過如下方式預先訓練得到:獲取第一樣本資料集,所述第一樣本資料集中安全資料的數量大於風險資料的數量;利用所述第一樣本資料集對異常檢測模型進行訓練。
TW107108576A 2017-06-16 2018-03-14 資料類型的識別、模型訓練、風險識別方法、裝置及設備 TWI664535B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710458652.3A CN107391569B (zh) 2017-06-16 2017-06-16 数据类型的识别、模型训练、风险识别方法、装置及设备
??201710458652.3 2017-06-16

Publications (2)

Publication Number Publication Date
TW201905728A TW201905728A (zh) 2019-02-01
TWI664535B true TWI664535B (zh) 2019-07-01

Family

ID=60333026

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107108576A TWI664535B (zh) 2017-06-16 2018-03-14 資料類型的識別、模型訓練、風險識別方法、裝置及設備

Country Status (7)

Country Link
US (2) US11113394B2 (zh)
CN (1) CN107391569B (zh)
MY (1) MY201302A (zh)
PH (1) PH12019501621A1 (zh)
SG (1) SG11201906380PA (zh)
TW (1) TWI664535B (zh)
WO (1) WO2018228428A1 (zh)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9069725B2 (en) 2011-08-19 2015-06-30 Hartford Steam Boiler Inspection & Insurance Company Dynamic outlier bias reduction system and method
KR102357659B1 (ko) 2014-04-11 2022-02-04 하트포드 스팀 보일러 인스펙션 앤드 인슈어런스 컴퍼니 시스템 조작 및 수행 데이터 모델링에 기초한 미래 신뢰도 예측 개선
CN107391569B (zh) * 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备
US10845079B1 (en) * 2017-06-28 2020-11-24 Alarm.Com Incorporated HVAC analytics
CN107944874B (zh) * 2017-12-13 2021-07-20 创新先进技术有限公司 基于迁移学习的风控方法、装置及系统
CN108173708A (zh) * 2017-12-18 2018-06-15 北京天融信网络安全技术有限公司 基于增量学习的异常流量检测方法、装置及存储介质
CN108346098B (zh) * 2018-01-19 2022-05-31 创新先进技术有限公司 一种风控规则挖掘的方法及装置
CN108304287B (zh) * 2018-01-22 2021-05-28 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN110472646B (zh) * 2018-05-09 2023-02-28 富士通株式会社 数据处理设备、数据处理方法及介质
CN109145030B (zh) * 2018-06-26 2022-07-22 创新先进技术有限公司 一种异常数据访问的检测方法和装置
CN109034209B (zh) * 2018-07-03 2021-07-30 创新先进技术有限公司 主动风险实时识别模型的训练方法和装置
US10878388B2 (en) * 2018-07-12 2020-12-29 Visionx, Llc Systems and methods for artificial-intelligence-based automated surface inspection
CN109190676B (zh) * 2018-08-06 2022-11-08 百度在线网络技术(北京)有限公司 一种用于图像识别的模型训练方法、装置、设备及存储介质
US11636292B2 (en) 2018-09-28 2023-04-25 Hartford Steam Boiler Inspection And Insurance Company Dynamic outlier bias reduction system and method
CN109461001B (zh) * 2018-10-22 2021-07-09 创新先进技术有限公司 基于第二模型获取第一模型的训练样本的方法和装置
CN110046632B (zh) * 2018-11-09 2023-06-02 创新先进技术有限公司 模型训练方法和装置
CN111275507A (zh) * 2018-12-04 2020-06-12 北京嘀嘀无限科技发展有限公司 一种订单异常识别和订单风险管控的方法及其系统
CN109684118B (zh) * 2018-12-10 2022-04-26 深圳前海微众银行股份有限公司 异常数据的检测方法、装置、设备及计算机可读存储介质
US10977738B2 (en) * 2018-12-27 2021-04-13 Futurity Group, Inc. Systems, methods, and platforms for automated quality management and identification of errors, omissions and/or deviations in coordinating services and/or payments responsive to requests for coverage under a policy
CN109670267B (zh) * 2018-12-29 2023-06-13 北京航天数据股份有限公司 一种数据处理方法和装置
CN109859029A (zh) * 2019-01-04 2019-06-07 深圳壹账通智能科技有限公司 异常申请检测方法、装置、计算机设备以及存储介质
CN109992578B (zh) * 2019-01-07 2023-08-08 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质
CN109936561B (zh) * 2019-01-08 2022-05-13 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
CN109905362B (zh) * 2019-01-08 2022-05-13 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质
KR20200108523A (ko) * 2019-03-05 2020-09-21 주식회사 엘렉시 이상 패턴 감지 시스템 및 방법
CN110084468B (zh) * 2019-03-14 2020-09-01 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN110363534B (zh) * 2019-06-28 2023-11-17 创新先进技术有限公司 用于识别异常交易的方法及装置
CN112308104A (zh) * 2019-08-02 2021-02-02 杭州海康威视数字技术股份有限公司 异常识别方法、装置及计算机存储介质
US11328177B2 (en) 2019-09-18 2022-05-10 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
JP7399269B2 (ja) 2019-09-18 2023-12-15 ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー 機械学習モデルにおいて動的外れ値偏り低減を実装するように構成されるコンピュータベースシステム、コンピュータコンポーネント及びコンピュータオブジェクト
US11615348B2 (en) 2019-09-18 2023-03-28 Hartford Steam Boiler Inspection And Insurance Company Computer-based systems, computing components and computing objects configured to implement dynamic outlier bias reduction in machine learning models
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN110826621A (zh) * 2019-11-01 2020-02-21 北京芯盾时代科技有限公司 一种风险事件处理方法及装置
CN110995681B (zh) * 2019-11-25 2022-04-22 北京奇艺世纪科技有限公司 用户识别方法、装置、电子设备及存储介质
CN112861895B (zh) * 2019-11-27 2023-11-03 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN110941607A (zh) * 2019-12-10 2020-03-31 医渡云(北京)技术有限公司 脏数据的识别方法、装置、设备及存储介质
CN111126577A (zh) * 2020-03-30 2020-05-08 北京精诊医疗科技有限公司 一种针对不均衡样本的损失函数设计方法
CN111760292A (zh) * 2020-07-07 2020-10-13 网易(杭州)网络有限公司 采样数据的检测方法、装置及电子设备
CN112016600A (zh) * 2020-08-14 2020-12-01 中国石油大学(北京) 管道异常识别方法、装置及系统
CN111986027A (zh) * 2020-08-21 2020-11-24 腾讯科技(上海)有限公司 基于人工智能的异常交易处理方法、装置
US11687806B2 (en) 2020-11-03 2023-06-27 International Business Machines Corporation Problem solving using selected datasets of internet-of-things system
CN112529109A (zh) * 2020-12-29 2021-03-19 四川长虹电器股份有限公司 一种基于无监督多模型的异常检测方法及系统
CN113127858A (zh) * 2021-04-19 2021-07-16 中国工商银行股份有限公司 异常检测模型训练方法、异常检测方法及装置
CN113521750B (zh) * 2021-07-15 2023-10-24 珠海金山数字网络科技有限公司 异常账号检测模型训练方法和异常账号检测方法
US11353840B1 (en) * 2021-08-04 2022-06-07 Watsco Ventures Llc Actionable alerting and diagnostic system for electromechanical devices
US11803778B2 (en) * 2021-08-04 2023-10-31 Watsco Ventures Llc Actionable alerting and diagnostic system for water metering systems
US20230186152A1 (en) * 2021-12-09 2023-06-15 Kinaxis Inc. Iterative data-driven configuration of optimization methods and systems
CN114726749B (zh) * 2022-03-02 2023-10-31 阿里巴巴(中国)有限公司 数据异常检测模型获取方法、装置、设备及介质
CN114692892B (zh) * 2022-03-23 2023-08-29 支付宝(杭州)信息技术有限公司 对数值特征进行处理的方法、模型训练方法和装置
CN114978616B (zh) * 2022-05-06 2024-01-09 支付宝(杭州)信息技术有限公司 风险评估系统的构建方法及装置、风险评估方法及装置
CN115118505B (zh) * 2022-06-29 2023-06-09 上海众人智能科技有限公司 一种基于入侵数据溯源的行为基线靶向抓取方法
CN115277205B (zh) * 2022-07-28 2024-05-14 中国电信股份有限公司 模型训练方法及装置、端口的风险识别方法
CN115238805B (zh) * 2022-07-29 2023-12-15 中国电信股份有限公司 异常数据识别模型的训练方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI320147B (zh) * 2006-06-01 2010-02-01
TW201614551A (en) * 2014-06-02 2016-04-16 Yottamine Analytics Llc Digital event profile filters based on cost sensitive support vector machine for fraud detection, risk rating or electronic transaction classification
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN106779272A (zh) * 2015-11-24 2017-05-31 阿里巴巴集团控股有限公司 一种风险预测方法和设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9306966B2 (en) * 2001-12-14 2016-04-05 The Trustees Of Columbia University In The City Of New York Methods of unsupervised anomaly detection using a geometric framework
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
US9985984B1 (en) * 2014-10-27 2018-05-29 National Technology & Engineering Solutions Of Sandia, Llc Dynamic defense and network randomization for computer systems
WO2016138041A2 (en) * 2015-02-23 2016-09-01 Cellanyx Diagnostics, Llc Cell imaging and analysis to differentiate clinically relevant sub-populations of cells
CN104794192B (zh) * 2015-04-17 2018-06-08 南京大学 基于指数平滑、集成学习模型的多级异常检测方法
CN106296195A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN106503562A (zh) * 2015-09-06 2017-03-15 阿里巴巴集团控股有限公司 一种风险识别方法及装置
CN105279382B (zh) * 2015-11-10 2017-12-22 成都数联易康科技有限公司 一种医疗保险异常数据在线智能检测方法
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
CN107391569B (zh) * 2017-06-16 2020-09-15 阿里巴巴集团控股有限公司 数据类型的识别、模型训练、风险识别方法、装置及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI320147B (zh) * 2006-06-01 2010-02-01
TW201614551A (en) * 2014-06-02 2016-04-16 Yottamine Analytics Llc Digital event profile filters based on cost sensitive support vector machine for fraud detection, risk rating or electronic transaction classification
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN106779272A (zh) * 2015-11-24 2017-05-31 阿里巴巴集团控股有限公司 一种风险预测方法和设备

Also Published As

Publication number Publication date
MY201302A (en) 2024-02-15
SG11201906380PA (en) 2019-08-27
TW201905728A (zh) 2019-02-01
CN107391569B (zh) 2020-09-15
US11100220B2 (en) 2021-08-24
CN107391569A (zh) 2017-11-24
WO2018228428A1 (zh) 2018-12-20
US20200167466A1 (en) 2020-05-28
PH12019501621A1 (en) 2020-01-20
US20190303569A1 (en) 2019-10-03
US11113394B2 (en) 2021-09-07

Similar Documents

Publication Publication Date Title
TWI664535B (zh) 資料類型的識別、模型訓練、風險識別方法、裝置及設備
Dhankhad et al. Supervised machine learning algorithms for credit card fraudulent transaction detection: a comparative study
Kim et al. Champion-challenger analysis for credit card fraud detection: Hybrid ensemble and deep learning
WO2021037280A2 (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
Keyan et al. An improved support-vector network model for anti-money laundering
CN108960833A (zh) 一种基于异构金融特征的异常交易识别方法,设备及存储介质
CN107851154A (zh) 存储器层次结构监测系统和方法
Wang et al. Representing fine-grained co-occurrences for behavior-based fraud detection in online payment services
Soltani et al. A new user-based model for credit card fraud detection based on artificial immune system
TWI752349B (zh) 風險識別方法及裝置
Kocher et al. Analysis of machine learning algorithms with feature selection for intrusion detection using UNSW-NB15 dataset
CN110998608A (zh) 用于各种计算机应用程序的机器学习系统
Fadaei Noghani et al. Ensemble classification and extended feature selection for credit card fraud detection
Zhou et al. Fraud detection within bankcard enrollment on mobile device based payment using machine learning
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
Li et al. Financial fraud detection by using Grammar-based multi-objective genetic programming with ensemble learning
Serna et al. IFBiD: inference-free bias detection
CN108717511A (zh) 一种Android应用威胁度评估模型建立方法、评估方法及系统
Iscan et al. Wallet-based transaction fraud prevention through LightGBM with the focus on minimizing false alarms
Almarshad et al. Generative adversarial networks-based novel approach for fraud detection for the european cardholders 2013 dataset
CN106874739A (zh) 一种终端标识的识别方法及装置
Illanko et al. A big data deep learning approach for credit card fraud detection
Rahman Supervised machine learning algorithms for credit card fraudulent transaction detection: A comparative survey
Xiao et al. Explainable fraud detection for few labeled time series data
Pristyanto et al. Comparison of ensemble models as solutions for imbalanced class classification of datasets