TWI718411B - 機器學習模型的訓練方法、裝置以及電子設備 - Google Patents
機器學習模型的訓練方法、裝置以及電子設備 Download PDFInfo
- Publication number
- TWI718411B TWI718411B TW107132758A TW107132758A TWI718411B TW I718411 B TWI718411 B TW I718411B TW 107132758 A TW107132758 A TW 107132758A TW 107132758 A TW107132758 A TW 107132758A TW I718411 B TWI718411 B TW I718411B
- Authority
- TW
- Taiwan
- Prior art keywords
- risk
- samples
- training
- sample
- positive
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Technology Law (AREA)
- Computer Security & Cryptography (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本說明書提供一種機器學習模型的訓練方法,包括:將訓練樣本集合中攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本;基於標記的所述正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對所述負樣本分別進行風險評估得到風險評分;過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本;基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型。
Description
本說明書係關於電腦應用領域,尤其關於一種機器學習模型的訓練方法、裝置以及電子設備。
在移動支付領域,出於支付安全上的考慮,支付平台通常都會在風控系統中部署透過有監督的機器學習訓練構建出的風險模型,對用戶的日常交易進行風險評分,以及時的發現用戶的異常交易。 在訓練風險模型時,通常可以將那些發生了交易異常的交易標記為正樣本(比如用戶主動報案的帳戶盜用等),其餘未發生交易異常的交易標記為負樣本。然後可以基於這些正樣本和負樣本進行有監督的機器學習訓練。當模型訓練完畢,後續可以使用該模型對用戶的日常交易進行風險評分,進而支付平台可以基於用戶日常交易的風險評分來進行風險決策,及時的發現用戶的異常交易。
本說明書提出一種機器學習模型的訓練方法,包括: 將訓練樣本集合中攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本; 基於標記的所述正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對所述負樣本分別進行風險評估得到風險評分; 過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本; 基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型。 可選的,所述過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本,包括: 刪除所述訓練樣本集合中所述風險評分大於預設閾值的負樣本。 可選的,所述過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本,包括: 將所述訓練樣本集合中所述風險評分大於預設閾值的負樣本重新標記為正樣本。 可選的,所述基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型,包括: 為重新標記的正樣本與所述訓練樣本集合中原有的正樣本對應的損失函數,分別配置權重值;其中,所述重新標記的正樣本對應的損失函數的權重值,小於所述原有的正樣本對應的損失函數的權重值; 基於所述重新標記的正樣本、所述訓練樣本集合中原有的正樣本以及所述訓練樣本集合中剩餘的負樣本訓練有監督的風險模型。 可選的,所述風險評分表徵風險發生機率; 所述方法還包括: 將所述風險評分大於預設閾值的負樣本重新標記為正樣本後,將所述正樣本的風險評分配置為該重新標記的負樣本對應的損失函數的權重值;以及,將原有的負樣本對應的損失函數的權重值設置為1。 可選的,還包括: 基於線上資料構建預測樣本; 基於重新訓練的模型對該預測樣本進行風險評估得到風險評分。 本說明書提出一種機器學習模型的訓練裝置,包括: 標記模組,將訓練樣本集合中攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本; 評估模組,基於標記的所述正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對所述負樣本分別進行風險評估得到風險評分; 過濾模組,過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本; 訓練模組,基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型。 可選的,所述過濾模組: 刪除所述訓練樣本集合中所述風險評分大於預設閾值的負樣本。 可選的,所述過濾模組: 將所述訓練樣本集合中所述風險評分大於預設閾值的負樣本重新標記為正樣本。 可選的,所述訓練模組進一步: 為重新標記的正樣本與所述訓練樣本集合中原有的正樣本對應的損失函數,分別配置權重值;其中,所述重新標記的正樣本對應的損失函數的權重值,小於所述原有的正樣本對應的損失函數的權重值; 基於所述重新標記的正樣本、所述訓練樣本集合中原有的正樣本以及所述訓練樣本集合中剩餘的負樣本訓練有監督的風險模型。 可選的,所述風險評分表徵風險發生機率; 所述過濾模組進一步: 將所述風險評分大於預設閾值的負樣本重新標記為正樣本後,將所述負樣本的風險評分配置為該重新標記的正樣本對應的損失函數的權重值;以及,將原有的正樣本對應的損失函數的權重值設置為1。 可選的,所述評估模組進一步: 基於線上資料構建預測樣本; 基於重新訓練的模型對該預測樣本進行風險評估得到風險評分。 本說明書還提出一種電子設備,包括: 處理器; 用於儲存機器可執行指令的記憶體; 其中,透過讀取並執行所述記憶體儲存的與有監督機器學習模型的訓練的控制邏輯對應的機器可執行指令,所述處理器被促使: 將訓練樣本集合中攜帶標籤的樣本標記為正樣本,未攜帶標籤的樣本標記為負樣本; 基於標記的所述正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對所述負樣本分別進行風險評估得到風險評分; 過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本; 基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型。 本說明書實施例所提供的技術方案,透過將訓練樣本集合中攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本,基於標記的所述正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對訓練樣本集合中的負樣本分別進行風險評估得到風險評分,然後對該訓練樣本集合中的風險評分大於預設閾值的負樣本作為疑似正樣本進行過濾處理,並基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型; 一方面,可以發現並過濾掉訓練樣本集合中的負樣本中的疑似正樣本,提高訓練樣本集合中正樣本和負樣本的標記準確度;另一方面,使用過濾後的訓練樣本集合中的正樣本和負樣本重新訓練模型,有助於提升訓練出的模型的性能。
這裡將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本申請相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本申請的一些方面相一致的裝置和方法的例子。 在本申請使用的術語是僅僅出於描述特定實施例的目的,而非旨在限制本申請。在本申請和所附申請專利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出專案的任何或所有可能組合。 應當理解,儘管在本申請可能採用術語第一、第二、第三等來描述各種資訊,但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本申請範圍的情況下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。取決於語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“回應於確定”。 在訓練有監督的機器學習模型時,由於對訓練樣本進行標記的準確度,通常直接決定訓練出的模型的準確度;因此,在模型訓練階段,如何改善訓練樣本的標記準確度,來提升訓練出的模型的準確度,將具有十分重要的意義。 例如,以基於用戶的歷史交易資料來訓練有監督的風險模型為例,在訓練風險模型時,通常可以將那些發生了風險事件的交易(比如,用戶的交易發生財產損失後主動報案)標記為正樣本,將其餘未發生風險事件的交易標記為負樣本。而在實際應用中,通常可能會存在一些發生了風險事件但用戶未主動報案的交易,這就可能導致訓練樣本集中的負樣本中可能混入一些正樣本的情況。對於建模方而言,直接使用該訓練樣本集來訓練模型,必然會對模型的準確度造成影響。因此,建模方如何能夠及時發現並過濾掉這些負樣本中混入的疑似正樣本,則將能夠顯著的提升訓練出的模型的準確度。 有鑑於此,本說明書針對傳統的基於pu-learning的模型訓練過程進行改進,提出一種透過將unlabel樣本(無標籤樣本)標記為正樣本(positive樣本)來訓練有監督的機器學習模型,並利用訓練完成的有監督的機器學習模型對訓練樣本集中的負樣本(negative樣本)進行風險評估的方式,發現並過濾訓練樣本集中的負樣本中的疑似正樣本,以提升訓練樣本集中的正樣本和負樣本的標記準確度的技術方案。 在實現時,可以對預先創建一個包含若干攜帶風險標籤的樣本和不攜帶風險標籤的樣本訓練樣本集,然後將該訓練樣本集中攜帶風險標籤的樣本標記為正樣本,將該訓練樣本集中不攜帶標籤的unlabel樣本標記為負樣本,然後基於標記的正樣本和負樣本訓練有監督的機器學習模型。 當模型訓練完成後,可以進一步基於該有監督的機器學習模型對訓練樣本集中的負樣本分別進行風險評估得到風險評分,然後篩選出訓練樣本集中上述風險評分大於預設閾值的負樣本,並將篩選出的這些負樣本作為疑似負樣本從訓練樣本集中過濾掉; 例如,在一種實現方式中,可以將風險評分大於預設閾值的負樣本直接從訓練樣本集中刪除;或者,在另一種實現方式中,也可以將風險評分大於預設閾值的負樣本作為疑似正樣本重新標記為正樣本,並為重新標記的正樣本對應的損失函數,設置一個小於原有的正樣本對應的損失函數的權重值。 當對訓練樣本集合中的疑似負樣本完成過濾後,可以基於過濾後的訓練樣本集合中的正樣本和負樣本重新對有監督的機器學習模型進行訓練,來構建風險模型。 一方面,可以發現並過濾掉訓練樣本集合中的負樣本中的疑似正樣本,提高訓練樣本集合中正樣本和負樣本的標記準確度; 另一方面,使用過濾後的訓練樣本集合中的正樣本和負樣本重新訓練模型,有助於提升訓練出的模型的性能。 下面透過具體實施例並結合具體的應用場景對本說明書進行描述。 請參考圖1,圖1是本說明書一實施例提供的一種有監督機器學習模型的訓練方法,執行以下步驟: 步驟102,將訓練樣本集合中攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本; 步驟104,基於標記的所述正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對所述負樣本分別進行風險評估得到風險評分; 步驟106,過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本; 步驟108,基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型。 上述風險模型,具體可以包括按照有監督的機器學習方法,基於預設的訓練樣本集合中的訓練樣本訓練出的機器學習模型;其中,上述風險模型的具體類型,在本說明書中不進行特別限定,在實際應用中,可以包括任意類型的風險模型; 例如,在一種場景中,上述風險模型,具體可以是基於用戶的歷史交易資料構建的訓練樣本集訓練出的,用於對用戶的日常交易進行風險評估的風險模型,透過該風險模型可以對用戶發起的交易進行風險評估,得到對應的交易風險評分,進而可以透過該交易風險評分來決策用戶發起的該筆交易是否存在風險。 又如,在另一種場景中,上述訓練完成的模型,具體也可以是基於用戶的歷史交易記錄、違約記錄、還款記錄等用戶資料構建的訓練樣本集訓練出的,用於對用戶的信用進行風險評估的信用模型,透過該信用模型可以對用戶的信用進行風險評估,得到對應的信用風險評分,進而可以透過該信用風險評分來決策該用戶是否為可能會發生諸如信用違約等風險行為的高風險用戶。 以下以上述風險模型為用於對用戶發起的交易進行風險評估的風險模型為例,對本說明書的技術方案進行詳細描述。 需要說明的是,以上述風險模型為用於對用戶發起的交易進行風險評估的風險模型為例,僅為示例性的,在實際應用中,上述風險模型也可以是其它類型的有監督的風險模型(比如信用模型),在本說明書中不進行特別限定。 在本說明書中,建模方可以預先收集大量用戶的歷史交易資料,從收集到的歷史交易資料中提取出若干維度的交易特徵作為建模特徵,並基於這些建模特徵構建特徵向量作為訓練樣本,然後再基於這些訓練樣本構建出一個特徵矩陣作為訓練樣本集合。 其中,用於構建訓練樣本的建模特徵,可以涵蓋任意形式的與用戶的交易風險相關的特徵,在本說明書中不進行特別限定;例如,可以包含諸如用戶是否在異地登錄、交易時間段、交易金額等維度的交易特徵。 當訓練樣本集合構建完成,建模方可以基於用戶主動回饋的資訊,將該訓練樣本集合中發生了風險事件的訓練樣本分別標記對應的風險標籤。此時,剩餘的未攜帶風險標籤的訓練樣本,即為unlabel樣本。 當建模方為訓練樣本集合中發生風險事件的訓練樣本標記了風險標籤後,可以將這些攜帶風險標籤的訓練樣本標記為正樣本,將剩餘的未攜帶風險標籤的unlabel樣本標記為負樣本,然後可以基於該訓練樣本集合中的這些正樣本和負樣本,對預設的有監督的機器學習模型進行訓練,來構建上述風險模型。 其中,上述有監督的機器學習模型的具體類型,在本說明書中不進行特別限定;例如,上述機器學習模型具體可以是LR(Logistic Regression, 邏輯回歸)模型,或者其它的形式的有監督的機器學習模型。 在實際應用中,有監督的機器學習模型,通常使用損失函數(Loss Function),來描述訓練樣本和對應的樣本標籤之間的擬合誤差。在實際的模型訓練過程中,可以將訓練樣本和對應的樣本標籤作為輸入值代入損失函數中進行迭代運算,直至算法收斂,來反向求解出訓練樣本和對應的樣本標籤之間的擬合誤差最小時的模型參數的取值。即透過損失函數來訓練有監督的機器學習模型的過程,可以理解為透過損失函數來反向求解出,訓練樣本和對應的樣本標籤之間的擬合誤差最小時的最優模型參數的取值的過程。 當求解出訓練樣本和對應的樣本標籤之間的擬合誤差最小時的模型參數的取值,模型訓練完畢。此時該訓練完成的模型,即為最終構建完成的用於對用戶的日常交易進行風險評估的風險模型。 在本說明書中,由於在實際應用中,建模方收集到的用於構建訓練樣本的歷史交易資料中,通常可能會存在一些發生了風險事件但用戶未主動報案的交易,這就可能導致上述訓練樣本集中未攜帶風險標籤的負樣本中可能混入一些疑似的正樣本的情況;因此,為了進一步改善上述訓練樣本集中被標記出的正樣本和負樣本的準確度,當上述風險模型訓練完畢,建模方還可以透過該風險模型進一步對上述訓練樣本集中的負樣本分別進行風險評估的方式,來發現並過濾訓練樣本集中的負樣本中的疑似正樣本。 在實現時,當上述風險模型訓練完畢,建模方可以將原有的訓練樣本集合中的負樣本分別作為預測樣本,輸入到風險模型進行風險評估,得到對應的風險評分,然後篩選出訓練樣本集合中風險評分大於預設閾值的負樣本作為疑似正樣本。 其中,上述預設閾值的取值大小,在本說明書中不進行特別限定,本領域技術人員可以基於實際的需求進行靈活配置。 當從訓練樣本集合中的負樣本中,篩選出風險評分大於預設閾值的負樣本後,建模方可以對這些篩選出的負樣本作為疑似正樣本進行過濾處理,以提高該訓練樣本集合中的正樣本和負樣本的標記準確度。 其中,建模方在過濾訓練樣本集合中風險評分大於預設閾值的負樣本時,具體可以透過以下示出兩種方式來完成: 在示出的一種實施方式中,建模方可以直接將這些風險評分大於預設閾值的負樣本從原有的訓練樣本集合中刪除,來過濾掉上述訓練樣本集合中的這些疑似正樣本。 在示出的另一種實施方式中,也可以不採用直接刪除的方式,而是將這些風險評分大於預設閾值的負樣本重新標記成疑似正樣本,並為該疑似正樣本對應的損失函數,配置一個小於與原有的正樣本對應的損失函數的權重值。 當然,在實際應用中,也可以不將這些負樣本重新標記成疑似正樣本,而是直接將這些負樣本重新標記成正樣本,並且為這些重新標記的正樣本的損失函數,配置一個與原有的正樣本對應的損失函數相同的權重值;比如,可以將這些重新標記的正樣本和原有的正樣本對應的損失函數的權重值統一設置為1。 其中,在訓練有監督的機器學習模型時,通常會使用兩個不同的損失函數,來分別描述正樣本和對應的樣本標籤,以及負樣本和對應的樣本標籤之間的擬合誤差。因此,有監督的機器學習模型的目標方程式,通常可以用如下的公式進行表徵:其中,在以上公式中:即為最終需要訓練的機器學習模型的函數運算式,表示訓練出的模型對訓練樣本的預測結果(即最終輸出的風險評分)。表示與正樣本(標記為1的樣本)對應的損失函數,用於表徵模型對正樣本的預測結果和真實標記=1之間的誤差損失;表示與負樣本(標記為-1的樣本)對應的損失函數,用於表徵模型對負樣本的預測結果和真實標記=-1之間的誤差損失。 其中,上述損失函數)的具體類型,在本說明書中不進行特別限定;例如,在實際應用中,可以選擇常見的log-loss函數或者hinge-loss函數。 其中,當上述損失函數採用log-loss函數,運算式為:當上述損失函數採用hinge-loss函數,運算式為:。 在本說明書中,由於被標記出的疑似正樣本仍然參與模型訓練,因此相當於訓練樣本集合中的訓練樣本被標記成為“正樣本”、“負樣本”和“疑似正樣本”三類;因此,在這種情況下,建模方在構建上述模型的目標方程式時,可以為以上三類訓練樣本分別構建一個損失函數,並為與正樣本對應的損失函數和與疑似正樣本對應的損失函數,分別配置一個對應的權重值,並為與該疑似正樣本對應的損失函數,配置一個小於與原有的正樣本對應的損失函數的權重值。 在這種情況下,上述有監督的機器學習模型的目標方程式,則可以用如下的公式進行表徵:其中,表示為疑似正樣本對應的損失函數配置的權重值。表示為原有的正樣本對應的損失函數配置的權重值。其中,取值小於;例如,在實際應用中,可以將的取值設置為一個遠小於的取值。 其中,表示與原有的正樣本(標記為1的樣本)對應的損失函數;表示與原有的負樣本(標記為-1的樣本)對應的損失函數;表示與疑似正樣本(標記為-2的樣本)對應的損失函數。 其中,需要說明的是,與原有的負樣本對應的損失函數,可以配置權重值,也可以不配置權重值,在本說明書中不進行特別限定; 例如,在一種實現方式中,也可以為與原有的負樣本對應的損失函數配置一個,與原有的正樣本對應的損失函數相同的權重值,在這種情況下,上述有監督的機器學習模型的目標方程式,則可以用如下的公式進行表徵:其中,需要補充說明的是,以上示出的將正樣本標記為1、將負樣本標記為-1,將疑似正樣本標記為-2僅為示例性的,並不用於限定;在實際應用中,對正樣本、負樣本和疑似正樣本進行標記時所採用的標籤類型,本領域技術人員可以靈活定義。 在本說明書中,透過為與疑似正樣本對應的損失函數配置一個較小的權重值,可以降低疑似正樣本對訓練完成的模型的輸出結果的貢獻度,從而間接的達到過濾掉訓練樣本集中的疑似正樣本的目的。 其中,在實際應用中,為與疑似正樣本對應的損失函數配置的權重值的具體取值大小,只需要是一個小於與原有正樣本對應的損失函數配置的權重值即可,在本說明書中不進行特別限定, 例如,在示出的一種實施方式中,由於風險模型最終輸出的風險評分,通常用於表徵風險發生機率,是一個介於0和1之間的浮點數;因此,可以將該疑似正樣本的風險評分,作為與疑似正樣本對應的損失函數的權重值,而將與原有的正樣本對應的損失函數的權重值設置為1。其中,需要說明的是,由於不同的疑似正樣本的風險評分可能不同,因此在使用損失函數對不同的疑似正樣本進行訓練時,該損失函數的權重值也將不同。 在本說明書中,當建模方透過以上示出的實施方式,對原有的訓練樣本集合中風險評分大於預設閾值的負樣本過濾後,可以基於過濾後的訓練樣本集合中的原有正樣本、疑似正樣本和原有的負樣本重新訓練上述有監督的機器學習模型;其中,具體的訓練過程在本申請中不再贅述。 當上述有監督的機器學習模型基於過濾後的訓練樣本集合重新訓練完成後,建模方可以在風控系統中部署該模型,並基於該模型對用戶日常的線上交易進行風險評估,為用戶日常的線上交易進行打分得到風險評分,然後基於得到的風險評分來決策該交易是否存在風險; 例如,在實現時,風控系統可以採集用戶的線上交易資料,從該線上交易資料中提取出若干維度的交易特徵來構建預測樣本,並將該預測樣本輸入到該模型中進行風險評估,得到風險評分;然後將該風險評分與預設的風險閾值進行比較,來確定該交易是否存在風險;如果該風險評分大於該風險閾值,此時風控系統可以將該交易決策為風險交易,可以直接終止該交易,或者對該用戶身份進一步進行校驗;如果校驗通過,此時可以執行該筆交易;否則,可以終止該筆交易。 透過以上實施例可知,在本說明書中,在訓練樣本集合中包含大量的正樣本和unlable樣本的場景下,不再採用的傳統的基於pu-learning的模型訓練過程中,從unlable樣本中篩選出可靠負樣本,然後再基於正樣本和可靠負樣本來進行有監督的機器學習的方式,而是透過將訓練樣本集合中攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本,基於標記的所述正樣本和負樣本訓練有監督的機器學習模型,並基於訓練完成的模型對訓練樣本集合中的負樣本分別進行風險評估得到風險評分,然後對該訓練樣本集合中的風險評分大於預設閾值的負樣本作為疑似正樣本進行過濾處理,並基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的機器學習模型; 一方面,可以發現並過濾掉訓練樣本集合中的負樣本中的疑似正樣本,提高訓練樣本集合中正樣本和負樣本的標記準確度; 另一方面,使用過濾後的訓練樣本集合中的正樣本和負樣本重新訓練模型,有助於提升訓練出的模型的性能。 與上述方法實施例相對應,本說明書還提供了一種有監督機器學習模型的訓練裝置的實施例。本說明書的有監督機器學習模型的訓練裝置的實施例可以應用在電子設備上。裝置實施例可以透過軟體實現,也可以透過硬體或者軟硬體結合的方式實現。以軟體實現為例,作為一個邏輯意義上的裝置,是透過其所在電子設備的處理器將非易失性記憶體中對應的電腦程式指令讀取到記憶體中運行形成的。從硬體層面而言,如圖2所示,為本說明書的有監督機器學習模型的訓練裝置所在電子設備的一種硬體結構圖,除了圖2所示的處理器、記憶體、網路介面、以及非易失性記憶體之外,實施例中裝置所在的電子設備通常根據該電子設備的實際功能,還可以包括其他硬體,對此不再贅述。 圖3是本說明書一示例性實施例示出的一種有監督機器學習模型的訓練裝置的框圖。 請參考圖3,所述有監督機器學習模型的訓練裝置30可以應用在前述圖2所示的電子設備中,包括有:標記模組301、評估模組302、過濾模組303和訓練模組304; 標記模組301,將訓練樣本集合中攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本; 評估模組302,基於標記的所述正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對所述負樣本分別進行風險評估得到風險評分; 過濾模組303,過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本; 訓練模組304,基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型。 在本實施例中,所述過濾模組303: 刪除所述訓練樣本集合中所述風險評分大於預設閾值的負樣本。 在本實施例中,所述過濾模組303: 將所述訓練樣本集合中所述風險評分大於預設閾值的負樣本重新標記為正樣本。 在本實施例中,所述訓練模組304進一步: 為重新標記的正樣本與所述訓練樣本集合中原有的正樣本對應的損失函數,分別配置權重值;其中,所述重新標記的正樣本對應的損失函數的權重值,小於所述原有的正樣本對應的損失函數的權重值; 基於所述重新標記的正樣本、所述訓練樣本集合中原有的正樣本以及所述訓練樣本集合中剩餘的負樣本訓練有監督的風險模型。 在本實施例中,所述風險評分表徵風險發生機率; 所述過濾模組303進一步: 將所述風險評分大於預設閾值的負樣本重新標記為正樣本後,將所述負樣本的風險評分配置為該重新標記的正樣本對應的損失函數的權重值;以及,將原有的正樣本對應的損失函數的權重值設置為1。 在本實施例中,所述評估模組302進一步: 基於線上資料構建預測樣本; 基於重新訓練的模型對該預測樣本進行風險評估得到風險評分。 上述裝置中各個模組的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程,在此不再贅述。 對於裝置實施例而言,由於其基本對應於方法實施例,所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本說明書方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解並實施。 上述實施例闡明的系統、裝置、模組或單元,具體可以由電腦晶片或實體實現,或者由具有某種功能的產品來實現。一種典型的實現設備為電腦,電腦的具體形式可以是個人電腦、膝上型電腦、蜂窩電話、相機電話、智慧型電話、個人數位助理、媒體播放機、導航設備、電子郵件收發設備、遊戲控制台、平板電腦、可穿戴設備或者這些設備中的任意幾種設備的組合。 與上述方法實施例相對應,本說明書還提供了一種電子設備的實施例。該電子設備包括:處理器以及用於儲存機器可執行指令的記憶體;其中,處理器和記憶體通常透過內部匯流排相互連接。在其他可能的實現方式中,所述設備還可能包括外部介面,以能夠與其他設備或者部件進行通信。 在本實施例中,透過讀取並執行所述記憶體儲存的與機器學習模型的訓練的控制邏輯對應的機器可執行指令,所述處理器被促使: 將訓練樣本集合中攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本; 基於標記的所述正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對所述負樣本分別進行風險評估得到風險評分; 過濾所述訓練樣本集合中所述風險評分大於預設閾值的負樣本; 基於過濾後的所述訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型。 在本實施例中,透過讀取並執行所述記憶體儲存的與有監督機器學習模型的訓練的控制邏輯對應的機器可執行指令,所述處理器還被促使: 刪除所述訓練樣本集合中所述風險評分大於預設閾值的負樣本。 在本實施例中,透過讀取並執行所述記憶體儲存的與有監督機器學習模型的訓練的控制邏輯對應的機器可執行指令,所述處理器還被促使: 將所述訓練樣本集合中所述風險評分大於預設閾值的負樣本重新標記為正樣本; 在本實施例中,透過讀取並執行所述記憶體儲存的與有監督機器學習模型的訓練的控制邏輯對應的機器可執行指令,所述處理器還被促使: 為重新標記的正樣本與所述訓練樣本集合中原有的正樣本對應的損失函數,分別配置權重值;其中,所述重新標記的正樣本對應的損失函數的權重值,小於所述原有的正樣本對應的損失函數的權重值; 基於所述重新標記的正樣本、所述訓練樣本集合中原有的正樣本以及所述訓練樣本集合中剩餘的負樣本訓練有監督的風險模型。 在本實施例中,透過讀取並執行所述記憶體儲存的與有監督機器學習模型的訓練的控制邏輯對應的機器可執行指令,所述處理器還被促使: 將所述風險評分大於預設閾值的負樣本重新標記為正樣本後,將所述正樣本的風險評分配置為該重新標記的負樣本對應的損失函數的權重值;以及,將原有的負樣本對應的損失函數的權重值設置為1。 在本實施例中,透過讀取並執行所述記憶體儲存的與有監督機器學習模型的訓練的控制邏輯對應的機器可執行指令,所述處理器還被促使: 基於線上資料構建預測樣本; 基於重新訓練的模型對該預測樣本進行風險評估得到風險評分。 上述裝置中各個單元的功能和作用的實現過程具體詳見上述方法中對應步驟的實現過程,在此不再贅述。 對於裝置實施例而言,由於其基本對應於方法實施例,所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本申請方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解並實施。 以上所述僅為本申請的較佳實施例而已,並不用以限制本申請,凡在本申請的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本申請保護的範圍之內。
30‧‧‧機器學習模型的訓練裝置301‧‧‧標記模組302‧‧‧評估模組303‧‧‧過濾模組304‧‧‧訓練模組
圖1是本說明書一實施例示出的一種有監督機器學習模型的訓練方法的流程圖; 圖2是本說明書一實施例提供的承載一種有監督機器學習模型裝置的電子設備所涉及的硬體結構圖; 圖3是本說明書一實施例提供的一種有監督機器學習模型裝置的邏輯框圖。
Claims (9)
- 一種用於線上交易的風險控制方法,該方法包括:採集用戶的線上交易資料,並從該線上交易資料提取若干維度的交易特徵來構建預測樣本;將該預測樣本輸入風險控制模型進行風險評估,得到風險評分;比較該風險評分是否大於預設的風險閾值;若該風險評分大於該風險閾值,則確定該線上交易為風險交易,其中,該風險控制模型透過下列步驟進行訓練:收集用戶的歷史交易資料,從該收集到的歷史交易資料中提取若干維度的交易特徵作為建模特徵,並基於該些建模特徵構建特徵向量作為訓練樣本,再基於該些訓練樣本構建一特徵矩陣作為訓練樣本集合;基於用戶主動回饋的資訊,將該訓練樣本集合中發生了風險事件的訓練樣本分別標記對應的風險標籤,將攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本;基於標記的該正樣本和負樣本訓練有監督的風險控制模型,並基於訓練完成的模型對該負樣本分別進行風險評估得到風險評分;及過濾該訓練樣本集合中該風險評分大於預設閾值的負樣本; 基於過濾後的該訓練樣本集合中的正樣本和負樣本重新訓練該有監督的風險控制模型以用於對用戶的線上交易進行風險評估,其中,所述過濾該訓練樣本集合中該風險評分大於預設閾值的負樣本,包括:將該訓練樣本集合中該風險評分大於預設閾值的負樣本重新標記為正樣本,以及其中,所述基於過濾後的該訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型,包括:為重新標記的正樣本與該訓練樣本集合中原有的正樣本對應的損失函數,分別配置權重值;其中,該重新標記的正樣本對應的損失函數的權重值,小於該原有的正樣本對應的損失函數的權重值;基於該重新標記的正樣本、該訓練樣本集合中原有的正樣本以及該訓練樣本集合中剩餘的負樣本訓練有監督的風險模型。
- 根據請求項1所述的方法,所述過濾該訓練樣本集合中該風險評分大於預設閾值的負樣本,包括:刪除該訓練樣本集合中該風險評分大於預設閾值的負樣本。
- 根據請求項1所述的方法,該風險評分表徵風險發生機率; 該方法還包括:將該風險評分大於預設閾值的負樣本重新標記為正樣本後,將該正樣本的風險評分配置為該重新標記的負樣本對應的損失函數的權重值;以及,將原有的負樣本對應的損失函數的權重值設置為1。
- 根據請求項1所述的方法,還包括:基於線上交易資料構建預測樣本;基於重新訓練的模型對該預測樣本進行風險評估得到風險評分。
- 一種用於線上交易的風險控制裝置,該裝置包括:採集模組,採集用戶的線上交易資料,並從該線上交易資料提取若干維度的交易特徵來構建預測樣本;第一評估模組,將該預測樣本輸入風險控制模型進行風險評估,得到風險評分;確定模組,比較該風險評分是否大於預設的風險閾值;若該風險評分大於該風險閾值,則確定該線上交易為風險交易,其中,該裝置還包含下列模組,用以訓練該風險控制模型:收集模組,收集用戶的歷史交易資料,從該收集到的歷史交易資料中提取若干維度的交易特徵作為建模特徵,並基於該些建模特徵構建特徵向量作為訓練樣本,再基於 該些訓練樣本構建一特徵矩陣作為訓練樣本集合;標記模組,基於用戶主動回饋的資訊,將該訓練樣本集合中發生了風險事件的訓練樣本分別標記對應的風險標籤,將攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本;評估模組,基於標記的該正樣本和負樣本訓練有監督的風險控制模型,並基於訓練完成的模型對該負樣本分別進行風險評估得到風險評分;過濾模組,過濾該訓練樣本集合中該風險評分大於預設閾值的負樣本;及訓練模組,基於過濾後的該訓練樣本集合中的正樣本和負樣本重新訓練該有監督的風險控制模型以用於對用戶的線上交易進行風險評估,其中,該過濾模組將該訓練樣本集合中該風險評分大於預設閾值的負樣本重新標記為正樣本,以及其中,該訓練模組進一步:為重新標記的正樣本與該訓練樣本集合中原有的正樣本對應的損失函數,分別配置權重值;其中,該重新標記的正樣本對應的損失函數的權重值,小於該原有的正樣本對應的損失函數的權重值;基於該重新標記的正樣本、該訓練樣本集合中原有的正樣本以及該訓練樣本集合中剩餘的負樣本訓練有監督的風險模型。
- 根據請求項5所述的裝置,該過濾模組:刪除該訓練樣本集合中該風險評分大於預設閾值的負樣本。
- 根據請求項5所述的裝置,該風險評分表徵風險發生機率;該過濾模組進一步:將該風險評分大於預設閾值的負樣本重新標記為正樣本後,將該負樣本的風險評分配置為該重新標記的正樣本對應的損失函數的權重值;以及,將原有的正樣本對應的損失函數的權重值設置為1。
- 根據請求項5所述的裝置,該評估模組進一步:基於線上交易資料構建預測樣本;基於重新訓練的模型對該預測樣本進行風險評估得到風險評分。
- 一種電子設備,包括:處理器;用於儲存機器可執行指令的記憶體;其中,透過讀取並執行該記憶體儲存的機器可執行指令,該處理器被促使:採集用戶的線上交易資料,並從該線上交易資料提取若干維度的交易特徵來構建預測樣本; 將該預測樣本輸入風險控制模型進行風險評估,得到風險評分;比較該風險評分是否大於預設的風險閾值;若該風險評分大於該風險閾值,則確定該線上交易為風險交易,其中,該風險控制模型透過下列步驟進行訓練:收集用戶的歷史交易資料,從該收集到的歷史交易資料中提取若干維度的交易特徵作為建模特徵,並基於該些建模特徵構建特徵向量作為訓練樣本,再基於該些訓練樣本構建一特徵矩陣作為訓練樣本集合;基於用戶主動回饋的資訊,將該訓練樣本集合中發生了風險事件的訓練樣本分別標記對應的風險標籤,將攜帶風險標籤的樣本標記為正樣本,未攜帶風險標籤的樣本標記為負樣本;基於標記的該正樣本和負樣本訓練有監督的風險模型,並基於訓練完成的模型對該負樣本分別進行風險評估得到風險評分;過濾該訓練樣本集合中該風險評分大於預設閾值的負樣本;基於過濾後的該訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型以用於對用戶的線上交易進行風險評估,其中,所述過濾該訓練樣本集合中該風險評分大於預設閾值的負樣本,包括: 將該訓練樣本集合中該風險評分大於預設閾值的負樣本重新標記為正樣本,以及其中,所述基於過濾後的該訓練樣本集合中的正樣本和負樣本重新訓練有監督的風險模型,包括:為重新標記的正樣本與該訓練樣本集合中原有的正樣本對應的損失函數,分別配置權重值;其中,該重新標記的正樣本對應的損失函數的權重值,小於該原有的正樣本對應的損失函數的權重值;基於該重新標記的正樣本、該訓練樣本集合中原有的正樣本以及該訓練樣本集合中剩餘的負樣本訓練有監督的風險模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201711174427.3 | 2017-11-22 | ||
CN201711174427.3 | 2017-11-22 | ||
CN201711174427.3A CN107798390B (zh) | 2017-11-22 | 2017-11-22 | 一种机器学习模型的训练方法、装置以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201926148A TW201926148A (zh) | 2019-07-01 |
TWI718411B true TWI718411B (zh) | 2021-02-11 |
Family
ID=61536298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107132758A TWI718411B (zh) | 2017-11-22 | 2018-09-18 | 機器學習模型的訓練方法、裝置以及電子設備 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10943186B2 (zh) |
EP (1) | EP3690763A4 (zh) |
CN (1) | CN107798390B (zh) |
SG (1) | SG11202004037TA (zh) |
TW (1) | TWI718411B (zh) |
WO (1) | WO2019100844A1 (zh) |
Families Citing this family (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107798390B (zh) * | 2017-11-22 | 2023-03-21 | 创新先进技术有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
US11621058B2 (en) * | 2018-02-08 | 2023-04-04 | Ohio State Innovation Foundation | Synthetic IHC-stained digital sides generated using artificial neural networks |
CN108520343B (zh) * | 2018-03-26 | 2022-07-19 | 平安科技(深圳)有限公司 | 风险模型训练方法、风险识别方法、装置、设备及介质 |
CN110400208B (zh) * | 2018-04-25 | 2021-03-12 | 上海方付通商务服务有限公司 | 一种小微风险控制模型构建方法及应用方法 |
CN108875776B (zh) * | 2018-05-02 | 2021-08-20 | 北京三快在线科技有限公司 | 模型训练方法和装置、业务推荐的方法和装置、电子设备 |
CN108694673A (zh) * | 2018-05-16 | 2018-10-23 | 阿里巴巴集团控股有限公司 | 一种保险业务风险预测的处理方法、装置及处理设备 |
CN109118316B (zh) * | 2018-06-25 | 2022-04-26 | 创新先进技术有限公司 | 线上店铺真实性的识别方法和装置 |
CN109063965A (zh) * | 2018-06-29 | 2018-12-21 | 阿里巴巴集团控股有限公司 | 一种网络支付风险评估方法、装置及服务器 |
CN109034209B (zh) * | 2018-07-03 | 2021-07-30 | 创新先进技术有限公司 | 主动风险实时识别模型的训练方法和装置 |
CN109087106B (zh) * | 2018-07-03 | 2020-12-08 | 创新先进技术有限公司 | 识别二次放号账户盗用的风控模型训练、风控方法、装置以及设备 |
CN110738323B (zh) * | 2018-07-03 | 2022-06-28 | 百度在线网络技术(北京)有限公司 | 基于数据共享建立机器学习模型的方法和装置 |
CN108828948B (zh) * | 2018-07-15 | 2021-06-18 | 大国创新智能科技(东莞)有限公司 | 基于深度学习的人工智能作战方法和机器人系统 |
CN108985463B (zh) * | 2018-07-15 | 2021-10-26 | 大国创新智能科技(东莞)有限公司 | 基于知识库和深度学习的人工智能作战方法和作战系统 |
CN108958030B (zh) * | 2018-07-15 | 2021-05-28 | 大国创新智能科技(东莞)有限公司 | 基于知识库的人工智能作战方法和机器人系统 |
CN109063845B (zh) * | 2018-07-15 | 2021-12-07 | 大国创新智能科技(东莞)有限公司 | 基于生成样本的深度学习方法和机器人系统 |
CN109255517B (zh) * | 2018-07-27 | 2022-04-26 | 创新先进技术有限公司 | 风控策略的生成方法、装置、服务器及可读存储介质 |
CN110163053B (zh) | 2018-08-02 | 2021-07-13 | 腾讯科技(深圳)有限公司 | 生成人脸识别的负样本的方法、装置及计算机设备 |
US11017100B2 (en) * | 2018-08-03 | 2021-05-25 | Verizon Patent And Licensing Inc. | Identity fraud risk engine platform |
SG11201811698UA (en) * | 2018-08-09 | 2020-03-30 | Beijing Didi Infinity Technology & Development Co Ltd | Systems and methods for allocating orders |
CN109344862B (zh) * | 2018-08-21 | 2023-11-28 | 中国平安人寿保险股份有限公司 | 正样本的获取方法、装置、计算机设备和存储介质 |
CN109325525A (zh) * | 2018-08-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 样本属性评估模型训练方法、装置及服务器 |
US11321629B1 (en) * | 2018-09-26 | 2022-05-03 | Intuit Inc. | System and method for labeling machine learning inputs |
WO2020078235A1 (en) * | 2018-10-15 | 2020-04-23 | Huawei Technologies Co., Ltd. | Boosting ai identification learning |
CN109670940A (zh) * | 2018-11-12 | 2019-04-23 | 深圳壹账通智能科技有限公司 | 基于机器学习的信用风险评估模型生成方法及相关设备 |
CN109598414B (zh) * | 2018-11-13 | 2023-04-21 | 创新先进技术有限公司 | 风险评估模型训练、风险评估方法、装置及电子设备 |
CN109583729B (zh) * | 2018-11-19 | 2023-06-20 | 创新先进技术有限公司 | 用于平台在线模型的数据处理方法和装置 |
CN109816245A (zh) * | 2019-01-25 | 2019-05-28 | 北京海致星图科技有限公司 | 用于对公授信客户风险预警的风险传导评估系统及方法 |
CN110033120A (zh) * | 2019-03-06 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 用于为商户提供风险预测赋能服务的方法及装置 |
CN110020670B (zh) * | 2019-03-07 | 2023-07-18 | 创新先进技术有限公司 | 一种模型迭代方法、装置及设备 |
CN109978033B (zh) * | 2019-03-15 | 2020-08-04 | 第四范式(北京)技术有限公司 | 同操作人识别模型的构建与同操作人识别的方法和装置 |
CN110232403B (zh) * | 2019-05-15 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 一种标签预测方法、装置、电子设备及介质 |
CN110163296B (zh) * | 2019-05-29 | 2020-12-18 | 北京达佳互联信息技术有限公司 | 图像识别的方法、装置、设备及存储介质 |
CN111860872B (zh) * | 2019-06-11 | 2024-03-26 | 北京嘀嘀无限科技发展有限公司 | 用于异常检测的系统和方法 |
CN112149818B (zh) * | 2019-06-27 | 2024-04-09 | 北京数安鑫云信息技术有限公司 | 威胁识别结果评估方法和装置 |
CN110310123B (zh) * | 2019-07-01 | 2023-09-26 | 创新先进技术有限公司 | 风险判断方法和装置 |
CN110570312B (zh) * | 2019-09-17 | 2021-05-28 | 深圳追一科技有限公司 | 样本数据获取方法、装置、计算机设备和可读存储介质 |
CN112541515A (zh) * | 2019-09-23 | 2021-03-23 | 北京京东乾石科技有限公司 | 模型训练方法、驾驶数据处理方法、装置、介质和设备 |
CN110796170A (zh) * | 2019-09-27 | 2020-02-14 | 北京淇瑀信息科技有限公司 | 客户动支模型生成方法、装置及电子设备 |
CN110732139B (zh) * | 2019-10-25 | 2024-03-05 | 腾讯科技(深圳)有限公司 | 检测模型的训练方法和用户数据的检测方法、装置 |
US11501101B1 (en) * | 2019-12-16 | 2022-11-15 | NTT DATA Services, LLC | Systems and methods for securing machine learning models |
CN111882140A (zh) * | 2019-12-17 | 2020-11-03 | 马上消费金融股份有限公司 | 风险评测方法、模型训练方法、装置、设备及存储介质 |
US11470106B1 (en) * | 2020-02-03 | 2022-10-11 | Rapid7, Inc. | Exploitability risk model for assessing risk of cyberattacks |
CN111310901B (zh) * | 2020-02-24 | 2023-10-10 | 北京百度网讯科技有限公司 | 用于获取样本的方法及装置 |
CN111275025A (zh) * | 2020-03-23 | 2020-06-12 | 复旦大学 | 一种基于深度学习的车位检测方法 |
US11768945B2 (en) * | 2020-04-07 | 2023-09-26 | Allstate Insurance Company | Machine learning system for determining a security vulnerability in computer software |
CN111695989A (zh) * | 2020-06-18 | 2020-09-22 | 新分享科技服务(深圳)有限公司 | 一种风控信贷模型的建模方法和平台 |
US11847217B2 (en) * | 2020-06-30 | 2023-12-19 | Mcafee, Llc | Methods and apparatus to provide and monitor efficacy of artificial intelligence models |
CN111915155A (zh) * | 2020-07-13 | 2020-11-10 | 上海冰鉴信息科技有限公司 | 小微企业风险等级识别方法、装置及计算机设备 |
CN111931912A (zh) * | 2020-08-07 | 2020-11-13 | 北京推想科技有限公司 | 网络模型的训练方法及装置,电子设备及存储介质 |
CN112259085A (zh) * | 2020-09-28 | 2021-01-22 | 上海声瀚信息科技有限公司 | 一种基于模型融合框架的两阶段语音唤醒算法 |
CN112052915B (zh) * | 2020-09-29 | 2024-02-13 | 中国银行股份有限公司 | 一种数据训练方法、装置、设备及存储介质 |
US20220108241A1 (en) * | 2020-10-06 | 2022-04-07 | Bank Of Montreal | Systems and methods for predicting operational events |
TWI754446B (zh) * | 2020-11-05 | 2022-02-01 | 中華電信股份有限公司 | 維持模型推論品質之系統及其方法 |
CN112381314A (zh) * | 2020-11-24 | 2021-02-19 | 京东数字科技控股股份有限公司 | 模型训练、出险率预测方法、装置、电子设备及存储介质 |
CN112465764A (zh) * | 2020-11-24 | 2021-03-09 | 泰康保险集团股份有限公司 | 一种图像篡改检测方法和装置 |
CN112633638B (zh) * | 2020-12-03 | 2022-07-08 | 北京道隆华尔软件股份有限公司 | 业务风险评估方法、装置、计算机设备和存储介质 |
CN112890816A (zh) * | 2020-12-11 | 2021-06-04 | 万达信息股份有限公司 | 一种个人用户的健康指数评分方法和装置 |
CN113159084B (zh) * | 2020-12-18 | 2024-04-19 | 国家电网有限公司大数据中心 | 一种空壳企业确定方法及装置、空壳企业监测方法及装置 |
CN112734568B (zh) * | 2021-01-29 | 2024-01-12 | 深圳前海微众银行股份有限公司 | 信用评分卡模型构建方法、装置、设备及可读存储介质 |
CN112966102A (zh) * | 2021-02-10 | 2021-06-15 | 万翼科技有限公司 | 分类模型构建及文本语句分类方法、设备及存储介质 |
CN113035363B (zh) * | 2021-03-25 | 2024-01-02 | 浙江大学 | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 |
CN112990375B (zh) * | 2021-04-29 | 2021-09-24 | 北京三快在线科技有限公司 | 一种模型训练方法、装置、存储介质及电子设备 |
CN113223017A (zh) * | 2021-05-18 | 2021-08-06 | 北京达佳互联信息技术有限公司 | 目标分割模型的训练方法、目标分割方法及设备 |
CN113449966B (zh) * | 2021-06-03 | 2023-04-07 | 湖北北新建材有限公司 | 一种石膏板设备巡检方法及系统 |
CN113435770A (zh) * | 2021-07-07 | 2021-09-24 | 中国银行股份有限公司 | 基于区块链的交易风险评估方法及装置 |
CN113505827B (zh) * | 2021-07-08 | 2024-01-12 | 西藏大学 | 一种机器学习分类方法 |
CN113435900A (zh) * | 2021-07-12 | 2021-09-24 | 中国工商银行股份有限公司 | 交易风险确定方法、装置和服务器 |
CN113821623A (zh) * | 2021-09-29 | 2021-12-21 | 平安普惠企业管理有限公司 | 模型训练方法、装置、设备与存储介质 |
CN113611411B (zh) * | 2021-10-09 | 2021-12-31 | 浙江大学 | 一种基于假阴性样本识别的体检辅助决策系统 |
CN114169224A (zh) * | 2021-11-15 | 2022-03-11 | 歌尔股份有限公司 | 获取光栅结构数据的方法、装置及可读存储介质 |
CN114549001A (zh) * | 2022-02-08 | 2022-05-27 | 支付宝(杭州)信息技术有限公司 | 训练风险交易识别模型、识别风险交易的方法和装置 |
CN114978616B (zh) * | 2022-05-06 | 2024-01-09 | 支付宝(杭州)信息技术有限公司 | 风险评估系统的构建方法及装置、风险评估方法及装置 |
CN115454171A (zh) * | 2022-08-30 | 2022-12-09 | 海尔优家智能科技(北京)有限公司 | 智能设备及其除雾方法、设备及介质 |
CN115630318A (zh) * | 2022-11-10 | 2023-01-20 | 中电金信软件(上海)有限公司 | 风控模型的训练方法、风险预测方法、装置、计算机设备 |
CN115719647B (zh) * | 2023-01-09 | 2023-04-11 | 之江实验室 | 融合主动学习和对比学习的血透并发心血管疾病预测系统 |
CN116452320B (zh) * | 2023-04-12 | 2024-04-30 | 西南财经大学 | 一种基于持续学习的信用风险预测方法 |
CN116204567B (zh) * | 2023-04-28 | 2023-09-05 | 京东科技控股股份有限公司 | 用户挖掘及模型的训练方法、装置、电子设备和存储介质 |
CN116596336B (zh) * | 2023-05-16 | 2023-10-31 | 合肥联宝信息技术有限公司 | 电子设备的状态评估方法、装置、电子设备及存储介质 |
CN116595215A (zh) * | 2023-07-14 | 2023-08-15 | 先进操作系统创新中心(天津)有限公司 | 基于多模态技术的中文文本搜索图像或视频的方法 |
CN116578877B (zh) * | 2023-07-14 | 2023-12-26 | 之江实验室 | 一种模型训练及二次优化打标的风险识别的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110119210A1 (en) * | 2009-11-16 | 2011-05-19 | c/o Microsoft Corporation | Multiple Category Learning for Training Classifiers |
CN103123634A (zh) * | 2011-11-21 | 2013-05-29 | 北京百度网讯科技有限公司 | 一种版权资源识别方法及装置 |
US20160350671A1 (en) * | 2015-05-28 | 2016-12-01 | Predikto, Inc | Dynamically updated predictive modeling of systems and processes |
CN106778603A (zh) * | 2016-12-13 | 2017-05-31 | 中国科学院信息工程研究所 | 一种基于梯度式级联svm分类器的行人识别方法 |
CN106971158A (zh) * | 2017-03-23 | 2017-07-21 | 南京邮电大学 | 一种基于CoLBP共生特征与GSS特征的行人检测方法 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822741A (en) * | 1996-02-05 | 1998-10-13 | Lockheed Martin Corporation | Neural network/conceptual clustering fraud detection architecture |
US6917926B2 (en) | 2001-06-15 | 2005-07-12 | Medical Scientists, Inc. | Machine learning method |
US7249162B2 (en) | 2003-02-25 | 2007-07-24 | Microsoft Corporation | Adaptive junk message filtering system |
WO2005055073A1 (en) * | 2003-11-27 | 2005-06-16 | Qinetiq Limited | Automated anomaly detection |
EP1816595A1 (en) * | 2006-02-06 | 2007-08-08 | MediaKey Ltd. | A method and a system for identifying potentially fraudulent customers in relation to network based commerce activities, in particular involving payment, and a computer program for performing said method |
US7792353B2 (en) * | 2006-10-31 | 2010-09-07 | Hewlett-Packard Development Company, L.P. | Retraining a machine-learning classifier using re-labeled training samples |
US8554622B2 (en) * | 2006-12-18 | 2013-10-08 | Yahoo! Inc. | Evaluating performance of binary classification systems |
US8386401B2 (en) | 2008-09-10 | 2013-02-26 | Digital Infuzion, Inc. | Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected |
CA2789243A1 (en) | 2009-03-13 | 2010-09-16 | Rutgers, The State University Of New Jersey | Systems and methods for the detection of malware |
US20130231258A1 (en) | 2011-12-09 | 2013-09-05 | Veracyte, Inc. | Methods and Compositions for Classification of Samples |
US8988237B2 (en) | 2010-05-27 | 2015-03-24 | University Of Southern California | System and method for failure prediction for artificial lift systems |
WO2012009804A1 (en) | 2010-07-23 | 2012-01-26 | Corporation De L'ecole Polytechnique | Tool and method for fault detection of devices by condition based maintenance |
US9836455B2 (en) | 2011-02-23 | 2017-12-05 | New York University | Apparatus, method and computer-accessible medium for explaining classifications of documents |
CN102163285A (zh) * | 2011-03-09 | 2011-08-24 | 北京航空航天大学 | 一种基于主动学习的跨域视频语义概念检测方法 |
US20150200962A1 (en) | 2012-06-04 | 2015-07-16 | The Board Of Regents Of The University Of Texas System | Method and system for resilient and adaptive detection of malicious websites |
US9405900B2 (en) | 2013-03-13 | 2016-08-02 | General Electric Company | Intelligent cyberphysical intrusion detection and prevention systems and methods for industrial control systems |
CN105378104A (zh) | 2013-03-15 | 2016-03-02 | 威拉赛特公司 | 用于样品分类的方法和组合物 |
US9355088B2 (en) | 2013-07-12 | 2016-05-31 | Microsoft Technology Licensing, Llc | Feature completion in computer-human interactive learning |
US20150134966A1 (en) | 2013-11-10 | 2015-05-14 | Sypris Electronics, Llc | Authentication System |
US9037967B1 (en) | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
US9373059B1 (en) * | 2014-05-05 | 2016-06-21 | Atomwise Inc. | Systems and methods for applying a convolutional network to spatial data |
US10452992B2 (en) | 2014-06-30 | 2019-10-22 | Amazon Technologies, Inc. | Interactive interfaces for machine learning model evaluations |
EP3161733A1 (en) | 2014-06-30 | 2017-05-03 | Amazon Technologies, Inc. | Interactive interfaces for machine learning model evaluations |
AU2015331579A1 (en) | 2014-10-17 | 2017-05-25 | Cireca Theranostics, Llc | Methods and systems for classifying biological samples, including optimization of analyses and use of correlation |
WO2016094330A2 (en) | 2014-12-08 | 2016-06-16 | 20/20 Genesystems, Inc | Methods and machine learning systems for predicting the liklihood or risk of having cancer |
US20160358099A1 (en) | 2015-06-04 | 2016-12-08 | The Boeing Company | Advanced analytical infrastructure for machine learning |
US11514096B2 (en) | 2015-09-01 | 2022-11-29 | Panjiva, Inc. | Natural language processing for entity resolution |
WO2017062623A1 (en) | 2015-10-06 | 2017-04-13 | Evolv Technologies, Inc. | Framework for augmented machine decision making |
CN107133628A (zh) * | 2016-02-26 | 2017-09-05 | 阿里巴巴集团控股有限公司 | 一种建立数据识别模型的方法及装置 |
US9972092B2 (en) | 2016-03-31 | 2018-05-15 | Adobe Systems Incorporated | Utilizing deep learning for boundary-aware image segmentation |
US10037471B2 (en) | 2016-07-05 | 2018-07-31 | Nauto Global Limited | System and method for image analysis |
CN106096598A (zh) * | 2016-08-22 | 2016-11-09 | 深圳市联合视觉创新科技有限公司 | 一种利用深度相关神经网络模型识别人脸表情的方法及装置 |
CN106779755A (zh) * | 2016-12-31 | 2017-05-31 | 湖南文沥征信数据服务有限公司 | 一种网络电商借贷风险评估方法及模型 |
CN107798390B (zh) * | 2017-11-22 | 2023-03-21 | 创新先进技术有限公司 | 一种机器学习模型的训练方法、装置以及电子设备 |
-
2017
- 2017-11-22 CN CN201711174427.3A patent/CN107798390B/zh active Active
-
2018
- 2018-09-18 TW TW107132758A patent/TWI718411B/zh active
- 2018-09-26 SG SG11202004037TA patent/SG11202004037TA/en unknown
- 2018-09-26 EP EP18880128.6A patent/EP3690763A4/en not_active Withdrawn
- 2018-09-26 WO PCT/CN2018/107499 patent/WO2019100844A1/zh unknown
-
2020
- 2020-03-09 US US16/813,268 patent/US10943186B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110119210A1 (en) * | 2009-11-16 | 2011-05-19 | c/o Microsoft Corporation | Multiple Category Learning for Training Classifiers |
CN103123634A (zh) * | 2011-11-21 | 2013-05-29 | 北京百度网讯科技有限公司 | 一种版权资源识别方法及装置 |
US20160350671A1 (en) * | 2015-05-28 | 2016-12-01 | Predikto, Inc | Dynamically updated predictive modeling of systems and processes |
CN106778603A (zh) * | 2016-12-13 | 2017-05-31 | 中国科学院信息工程研究所 | 一种基于梯度式级联svm分类器的行人识别方法 |
CN106971158A (zh) * | 2017-03-23 | 2017-07-21 | 南京邮电大学 | 一种基于CoLBP共生特征与GSS特征的行人检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107798390A (zh) | 2018-03-13 |
TW201926148A (zh) | 2019-07-01 |
EP3690763A1 (en) | 2020-08-05 |
US20200210899A1 (en) | 2020-07-02 |
SG11202004037TA (en) | 2020-06-29 |
US10943186B2 (en) | 2021-03-09 |
CN107798390B (zh) | 2023-03-21 |
WO2019100844A1 (zh) | 2019-05-31 |
EP3690763A4 (en) | 2020-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI718411B (zh) | 機器學習模型的訓練方法、裝置以及電子設備 | |
TWI788529B (zh) | 基於lstm模型的信用風險預測方法及裝置 | |
EP3651043B1 (en) | Url attack detection method and apparatus, and electronic device | |
CN104915879B (zh) | 基于金融数据的社会关系挖掘的方法及装置 | |
US10891161B2 (en) | Method and device for virtual resource allocation, modeling, and data prediction | |
US10503906B2 (en) | Determining a risk indicator based on classifying documents using a classifier | |
TWI734038B (zh) | 異常資料存取的識別方法和裝置 | |
CN108664897A (zh) | 票据识别方法、装置及存储介质 | |
US10380709B1 (en) | Automated secondary linking for fraud detection systems | |
CN106104555A (zh) | 用于保护外围设备的行为分析 | |
CN106408411A (zh) | 信用评估方法及装置 | |
CN107729466B (zh) | 关系网络的构建方法、装置及电子设备 | |
CN108229963A (zh) | 用户操作行为的风险识别方法及装置 | |
CN106982230A (zh) | 一种流量检测方法及系统 | |
CN107358247A (zh) | 一种确定流失用户的方法及装置 | |
US11809307B2 (en) | Requirements to test system and method | |
CN110032859A (zh) | 异常帐户鉴别方法与装置及介质 | |
Al Sheikh et al. | Developing and implementing a barcode based student attendance system | |
CN109670933A (zh) | 识别用户角色的方法、用户设备、存储介质及装置 | |
CN110533525A (zh) | 用于评估实体风险的方法及装置 | |
CN111177136A (zh) | 标注数据清洗装置和方法 | |
CN109840676A (zh) | 基于大数据的风控方法、装置、计算机设备及存储介质 | |
CN114638704A (zh) | 非法资金转移的识别方法及其装置、电子设备及存储介质 | |
CN106874093A (zh) | 基于用户画像计算目标人群的方法、计算引擎及计算设备 | |
WO2019223133A1 (zh) | 股市风险预测方法、装置、计算机设备及存储介质 |