TW202001749A - 套現識別方法和裝置 - Google Patents

套現識別方法和裝置 Download PDF

Info

Publication number
TW202001749A
TW202001749A TW108110466A TW108110466A TW202001749A TW 202001749 A TW202001749 A TW 202001749A TW 108110466 A TW108110466 A TW 108110466A TW 108110466 A TW108110466 A TW 108110466A TW 202001749 A TW202001749 A TW 202001749A
Authority
TW
Taiwan
Prior art keywords
value
transaction
cash
transaction information
predicted
Prior art date
Application number
TW108110466A
Other languages
English (en)
Inventor
趙奇
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW202001749A publication Critical patent/TW202001749A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/30Payment architectures, schemes or protocols characterised by the use of specific devices or networks
    • G06Q20/32Payment architectures, schemes or protocols characterised by the use of specific devices or networks using wireless devices
    • G06Q20/322Aspects of commerce using mobile devices [M-devices]
    • G06Q20/3223Realising banking transactions through M-devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/407Cancellation of a transaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本說明書實施例提供一種訓練套現識別模型的方法和裝置以及套現識別方法和裝置,所述訓練方法包括:獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值;以及利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路,得:在對所述第二DQN網路輸入所述第一交易資訊和所述第一套現預測值之後,相比於訓練前,所述第二DQN網路在訓練後輸出的Q值預測值與所述Q值標籤值之差的絕對值減小。

Description

套現識別方法和裝置
本說明書實施例涉及機器學習技術領域,更具體地,涉及一種訓練套現識別模型的方法和裝置、以及一種套現識別方法和裝置。
伴隨著消費金融市場上消費信貸產品的大量湧現及其產品功能的不斷完善、准許進入人群的不斷擴大、授信額度的不斷提高,使用消費信貸產品進行線上、離線的消費支付成為越來越流行的支付方式和支付趨勢。花唄作為一種消費信貸產品,憑藉其龐大的使用者基數和完善的消費體驗、強大的場景存取能力,正成為目前流行的消費信貸支付工具。花唄自帶的先消費、後支付的消費支付屬性,可以有效緩解使用者的短時資金壓力、幫助個人累積良好的信用記錄,並且以手機作為支付載體的方式也提高了支付的效率和安全性,避免了現金支付的低效繁瑣流程。然而,惡意套現使用者的存在卻對這一良性循環形成了極大的威脅,套現不僅會影響買家個人的信用記錄,而且手續費的存在往往會降低買家的還款意願。支用資料也佐證了套現使用者的支用不良率和逾期率可達正常使用者的數倍至數十倍。因此,花唄反套現作為花唄風險控制的重要組成部分,對於花唄產品的健康、良性發展、及整個消費信貸市場發展都有著重要的意義。 目前用於套現交易識別的方法包括監督學習、半監督學習、無監督學習等方法。因此,需要一種更有效的套現交易識別方案。
本說明書實施例旨在提供一種更有效的套現交易識別方案,以解決現有技術中的不足。 為實現上述目的,本說明書一個態樣提供一種訓練套現識別模型的方法,所述套現識別模型包括第一DQN網路和第二DQN網路,所述方法包括: 獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值,其中,所述第一套現預測值通過對所述第一DQN網路輸入所述第一交易資訊而計算得出,並且所述第一套現預測值指示所述第一交易是否被預測為套現交易,以及其中,所述Q值標籤值通過使用Q學習演算法基於所述第一DQN網路的輸出和第一交易的第一套現標籤值計算得出,其中所述第一DQN網路的輸出包括對所述第一DQN網路輸入所述第一交易資訊的輸出、和對所述第一DQN網路輸入第二交易的第二交易資訊的輸出,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;以及 利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路,使得:在對所述第二DQN網路輸入所述第一交易資訊和所述第一套現預測值之後,相比於訓練前,所述第二DQN網路在訓練後輸出的Q值預測值與所述Q值標籤值之差的絕對值減小,其中所述Q值預測值與所述第一交易資訊和所述第一套現預測值對應。 在一個實施例中,在所述訓練套現識別模型的方法中,所述Q學習演算法通過以下步驟實現:獲取第一交易的第一交易資訊和第一交易的第一套現標籤值,其中所述第一交易資訊中包括交易金額,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;獲取第二交易的第二交易資訊和第二交易的第二套現標籤值,所述第二套現標籤值指示所述第二交易是否被標定為套現交易;對所述第一DQN網路輸入所述第一交易資訊,以獲取所述第一套現預測值;基於所述第一套現預測值、第一套現標籤值和所述交易金額,確定所述第一交易的回報值;對所述第一DQN網路輸入所述第二交易資訊,以獲取對應於所述第二交易資訊和所述第二套現標籤值的第二Q值預測值;以及基於所述回報值和與所述第二Q值預測值,獲取與所述第一交易資訊和所述第一套現預測值對應的Q值標籤值。 在一個實施例中,在所述訓練套現識別模型的方法中,所述第一DQN網路的參數基於所述第二DQN網路的參數設置。 在一個實施例中,在所述訓練套現識別模型的方法中,所述第一DQN網路通過所述方法得到訓練。 在一個實施例中,在所述訓練套現識別模型的方法中,所述套現識別模型還包括樣本隊列,其中,所述樣本隊列順序儲存有固定數目的樣本,並且,所述樣本隊列在接收預定數目的樣本時刪除其排在前面的所述預定數目的已有樣本,以及其中,獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值包括,從所述樣本隊列隨機獲取第一樣本,所述第一樣本包括第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值。 在一個實施例中,在所述訓練套現識別模型的方法中,所述第一交易資訊包括交易屬性資訊、買家資訊、賣家資訊以及物流資訊。 在一個實施例中,在所述訓練套現識別模型的方法中,所述第一或第二DQN網路中包括以下一種神經網路:LSTM、DNN、CNN和RNN。 在一個實施例中,在所述訓練套現識別模型的方法中,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路包括,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值,通過隨機梯度下降法訓練所述第二DQN網路。 在一個實施例中,在所述訓練套現識別模型的方法中,對所述第一DQN網路輸入所述第一交易資訊,以獲取第一套現預測值包括,對所述第一DQN網路輸入所述第一交易資訊以輸出與所述第一交易資訊對應的Q值預測值的二維向量,以及,根據ε -貪婪策略,基於所述向量獲取第一套現預測值。 在一個實施例中,在所述訓練套現識別模型的方法中,對所述第一DQN網路輸入所述第二交易資訊,以獲取對應於所述第二交易資訊和所述第二套現標籤值的第二Q值預測值包括:對所述第一DQN網路輸入所述第二交易資訊,以獲取與所述第二交易資訊對應的二維的Q值預測值向量;通過對所述第二套現標籤值進行獨熱編碼,以獲取二維的第二套現標籤值向量;將所述Q值預測值向量與所述第二套現標籤值向量進行對位相乘,以獲取二維的聯合表徵向量;以及獲取所述聯合表徵向量中的非零Q值作為所述第二Q值預測值。 在一個實施例中,在所述訓練套現識別模型的方法中,基於所述第一套現預測值、第一套現標籤值和交易金額,確定所述第一交易的回報值包括,在所述第一套現預測值與所述第一套現標籤值一致的情況中,確定所述第一交易的回報值等於所述交易金額,在所述第一套現預測值與所述第一套現標籤值不一致的情況中,確定所述第一交易的回報值等於所述交易金額的負數。 在一個實施例中,所述訓練套現識別模型的方法還包括,在基於所述第一套現預測值、第一套現標籤值和交易金額,確定所述第一交易的回報值之後,對所述模型的總回報值累加所述第一交易的回報值。 本說明書另一態樣提供一種套現識別方法,包括:獲取交易的交易資訊;以及對通過根據上述訓練方法訓練獲取的套現識別模型輸入所述交易資訊,以獲取所述交易的套現預測值,所述套現預測值指示所述交易是否被預測為套現交易。 在一個實施例中,在所述套現識別方法中,對所述套現識別模型輸入所述交易資訊,以獲取所述交易的套現預測值包括,對所述套現識別模型輸入所述交易資訊,以獲取與所述交易資訊對應的二維的Q值預測值向量,以及,根據ε -貪婪策略,基於所述Q值預測值向量獲取所述交易的套現預測值。 本說明書另一態樣提供一種訓練套現識別模型的裝置,所述套現識別模型包括第一DQN網路和第二DQN網路,所述裝置包括: 獲取單元,配置為,獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值,其中,所述第一套現預測值通過對所述第一DQN網路輸入所述第一交易資訊而計算得出,並且所述第一套現預測值指示所述第一交易是否被預測為套現交易,以及其中,所述Q值標籤值通過使用Q學習演算法基於所述第一DQN網路的輸出和第一交易的第一套現標籤值計算得出,其中所述第一DQN網路的輸出包括對所述第一DQN網路輸入所述第一交易資訊的輸出、和對所述第一DQN網路輸入第二交易的第二交易資訊的輸出,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;以及 訓練單元,配置為,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路,使得:在對所述第二DQN網路輸入所述第一交易資訊和所述第一套現預測值之後,相比於訓練前,所述第二DQN網路在訓練後輸出的Q值預測值與所述Q值標籤值之差的絕對值減小,其中所述Q值預測值與所述第一交易資訊和所述第一套現預測值對應。 在一個實施例中,所述訓練套現識別模型的裝置還包括Q學習演算法實現單元,所述Q學習演算法實現單元包括以下子單元:第一獲取子單元,配置為,獲取第一交易的第一交易資訊和第一交易的第一套現標籤值,其中所述第一交易資訊中包括交易金額,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;第二獲取子單元,配置為,獲取第二交易的第二交易資訊和第二交易的第二套現標籤值,所述第二套現標籤值指示所述第二交易是否被標定為套現交易;第三獲取子單元,配置為,對所述第一DQN網路輸入所述第一交易資訊,以獲取所述第一套現預測值;確定單元,配置為,基於所述第一套現預測值、第一套現標籤值和所述交易金額,確定所述第一交易的回報值;第四獲取子單元,配置為,對所述第一DQN網路輸入所述第二交易資訊,以獲取對應於所述第二交易資訊和所述第二套現標籤值的第二Q值預測值;以及計算單元,配置為,基於所述回報值和與所述第二Q值預測值,計算與所述第一交易資訊和所述第一套現預測值對應的Q值標籤值。 在一個實施例中,在所述訓練套現識別模型的裝置中,所述套現識別模型還包括樣本隊列,其中,所述樣本隊列順序儲存有固定數目的樣本,並且,所述樣本隊列在接收預定數目的樣本時刪除其排在前面的所述預定數目的已有樣本,以及其中,所述獲取單元還配置為,從所述樣本隊列隨機獲取第一樣本,所述第一樣本包括第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值。 在一個實施例中,在所述訓練套現識別模型的裝置中,所述訓練單元還配置為,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值,通過隨機梯度下降法訓練所述第二DQN網路。 在一個實施例中,在所述訓練套現識別模型的裝置中,第一獲取子單元還配置為,對所述第一DQN網路輸入所述第一交易資訊以輸出與所述第一交易資訊對應的Q值預測值的二維向量,以及,根據ε -貪婪策略,基於所述向量獲取第一套現預測值。 在一個實施例中,在所述訓練套現識別模型的裝置中,第四獲取子單元還配置為:對所述第一DQN網路輸入所述第二交易資訊,以獲取與所述第二交易資訊對應的二維的Q值預測值向量;通過對所述第二套現標籤值進行獨熱編碼,以獲取二維的第二套現標籤值向量;將所述Q值預測值向量與所述第二套現標籤值向量進行對位相乘,以獲取二維的聯合表徵向量;以及獲取所述聯合表徵向量中的非零Q值作為所述第二Q值預測值。 在一個實施例中,在所述訓練套現識別模型的裝置中,所述確定單元還配置為,在所述第一套現預測值與所述第一套現標籤值一致的情況中,確定所述第一交易的回報值等於所述交易金額,在所述第一套現預測值與所述第一套現標籤值不一致的情況中,確定所述第一交易的回報值等於所述交易金額的負數。 在一個實施例中,所述訓練套現識別模型的裝置還包括累加單元,配置為,在基於所述第一套現預測值、第一套現標籤值和交易金額,確定所述第一交易的回報值之後,對所述模型的總回報值累加所述第一交易的回報值。 本說明書另一態樣提供一種套現識別裝置,包括:獲取單元,配置為,獲取交易的交易資訊;以及預測單元,配置為,對通過根據上述訓練方法訓練獲取的套現識別模型輸入所述交易資訊,以獲取所述交易的套現預測值,所述套現預測值指示所述交易是否被預測為套現交易。 在一個實施例中,在所述套現識別裝置中,所述預測單元還配置為,對所述套現識別模型輸入所述交易資訊,以獲取與所述交易資訊對應的二維的Q值預測值向量,以及,根據ε -貪婪策略,基於所述Q值預測值向量獲取所述交易的套現預測值。 通過根據本說明書實施例的套現識別方案,通過將交易的金額作為強化學習模型的回報,將金額納入學習過程中,模型如果能夠正確地識別大額的套現交易將可獲得較大的正收益,如果誤判則會造成較大的負收益,因此模型針對大額交易的處理將會更加的謹慎,這種機制更加符合業務的需要。通過使用深度神經網路作為值函數的逼近函數,神經網路的訓練採用分批次小批量輸入的方式進行,有助於降低模型更新迭代的時間開銷與資源開銷,加快模型的收斂速度。通過使用經驗回放、隨機取樣和批量資料訓練機制,實現了按時間窗口取樣的效果,隨機取樣則保證了樣本在時間維度上的相對隨機性。
下面將結合圖式描述本說明書實施例。 圖1示出了根據本說明書實施例的套現識別系統100的示意圖。如圖1所示,系統100包括第一DQN網路11、策略單元12、樣本準備單元13、樣本隊列14、第二DQN網路15以及評估單元16。其中,第一DQN網路11可用於識別套現交易,第二DQN網路15可用於進行模型訓練。其中,DQN網路為深度Q網路,其中通過神經網路對值函數(Q函數)進行非線性逼近。DQN網路中使用的網路可以為以下一種神經網路:LSTM、DNN、CNN和RNN,在本說明書中,在DQN網路中使用LSTM網路作為示例。其中,DQN網路根據輸入的交易的交易資訊特徵向量,輸出二維的Q值向量,該Q值向量中的兩個Q值分別對應於交易為套現交易和套現為非套現交易兩個動作。 根據本說明書實施例的套現識別系統100可用於識別例如花唄的消費信貸產品中的套現交易。其中,在花唄業務中,例如可通過近場通信(Near Field Communication,NFC)、WIFI、二維條碼掃描技術、條碼掃描技術、藍牙、紅外、簡訊訊息(Short Message Service,SMS)、多媒體訊息(Multimedia Message Service,MMS)等進行支付。 在模型訓練階段,如下準備用於模型訓練的一個樣本。首先,從一批通過花唄支付的交易資料中獲取第一交易的資訊s1和套現標籤值b1,隨後從該批交易資料中隨機獲取第二交易的資訊s2和套現標籤值b2,其中套現標籤值b1/b2只是第一交易/第二交易是否被標定為套現交易。這裡,s1、s2對應於DQN網路中的狀態,b1、b2對應於DQN網路中的動作的標籤值。該批交易資料例如包括幾百或幾千個交易的資料,也即,可準備幾百或幾千個樣本。然後,將s1和s2先後輸入第一DQN網路11,以分別輸出對應的二維的Q值向量q(s1)和q(s2)。之後,將第一交易的Q值向量q(s1)發送給策略單元12,將第二交易的Q值向量q(s2)發送給樣本準備單元13。策略單元12根據預定的策略(例如貪婪策略、ε -貪婪策略(ε -greedy)等)從q(s1)獲取第一交易的套現預測值a1,並將a1傳送給樣本準備單元13。 在樣本準備單元13中,首先基於第二交易的套現標籤值b2,從第二交易的Q值向量q(s2)獲取與b2對應的Q預測值q(s2,b2),以作為Q值向量q(s2)中包含的Q值的最大值;將第一交易的套現預測值a1與套現標籤值b1相比較,以確定回報r,即當a1與b1一致時,r等於交易資訊中s1中包括的交易金額,當a1與b1不一致時,則r等於交易資訊中s1中包括的交易金額的負數;之後,樣本準備單元13基於上述計算的r和q(s2,b2),根據Q學習演算法(Q-Learning)計算出第一交易的Q值標籤值Q(s1,a1),從而將a1、Q(s1,a1)和從交易資料中獲取的s1作為一個樣本發送給樣本隊列14,並將回報r發送給評估單元16。其中,在DQN網路中,與一對狀態(交易資訊)和動作(套現預測值或套現標籤值)對應的Q值表示在執行該動作之後系統的累計回報。 樣本隊列14是固定長度的隊列,例如,其可儲存1000個交易的樣本。例如,在對系統100輸入一批500個交易的資料,並根據上述過程準備了500個樣本並存入樣本隊列14之後,樣本隊列14刪除其初始保存的前500個樣本。第二DQN網路15可從樣本隊列14中隨機選取一批(例如500個)樣本進行模型訓練,在訓練過程中,對應於每個樣本,以s1、a1作為輸入,以Q(s1,a1)作為輸出標籤值,通過隨機梯度下降法進行調參,以使得,在調參後,該第二DQN網路15對應於s1、a1的輸出q(s1,a1)更逼近標籤值Q(s1,a1)。第二DQN網路15可在進行多批(例如100批)樣本(每批樣本包括例如500個樣本)的訓練之後,將其權重(即參數)遷移賦值給第一DQN網路11。另外,評估單元16在接收第一交易的回報r之後,對系統的總回報值累加r,從而可以該總回報值評估系統的學習能力。總的回報值會隨著訓練迭代次數不斷增加,並在模型收斂後穩定在固定的值附近。 在使用模型識別套現時,對系統輸入第三交易資訊s3,系統通過套現識別DQN11和策略單元12對交易資訊s3預測第三交易的套現預測值a3,以估計該交易是否為套現交易,並輸出該套現預測值a3。 上述對系統100的圖示和說明只是示意性的,根據本說明書實施例的系統100不限於此。例如,第一DQN網路11可以是以與第二DQN網路15相同的方法訓練的網路。即,第一DQN網路11與第二DQN網路15具有兩套參數。在該情況中,第一DQN網路11與第二DQN網路15在系統100中是對稱的、且可互換的。例如,樣本隊列14也與第一DQN網路11相連,並對其提供訓練樣本。通過這樣的雙DQN架構,可避免模型的過估計。 圖2示出了根據本說明書實施例的訓練套現識別模型的方法。所述套現識別模型包括第一DQN網路和第二DQN網路,所述方法包括: 在步驟S202,獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值,其中,所述第一套現預測值通過對所述第一DQN網路輸入所述第一交易資訊而計算得出,並且所述第一套現預測值指示所述第一交易是否被預測為套現交易,以及其中,所述Q值標籤值通過使用Q學習演算法基於所述第一DQN網路的輸出和第一交易的第一套現標籤值計算得出,其中所述第一DQN網路的輸出包括對所述第一DQN網路輸入所述第一交易資訊的輸出、和對所述第一DQN網路輸入第二交易的第二交易資訊的輸出,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;以及 在步驟S204,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路,使得:在對所述第二DQN網路輸入所述第一交易資訊和所述第一套現預測值之後,相比於訓練前,所述第二DQN網路在訓練後輸出的Q值預測值與所述Q值標籤值之差的絕對值減小,其中所述Q值預測值與所述第一交易資訊和所述第一套現預測值對應。 首先,在步驟S202,獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值。這裡的套現識別模型例如為圖1所示的系統,也就是說,獲取用於訓練圖1中的第二DQN網路15的一個訓練樣本。 如參考圖1所述,第一交易資訊s1來自於模型外的輸入,例如,可通過環境系統向模型輸入第一交易資訊s1,或者可通過從資料源(例如儲存花唄業務資料的歷史資料庫)直接獲取第一交易資訊s1。環境系統為用於向模型輸入資料的模組,其例如可通過對一批交易資料進行隨機取樣而獲取第一交易的相關資料,其中包括第一交易資訊s1,或者其也可以通過順序取樣而獲取第一交易的相關資料。第一交易資訊s1也即DQN演算法中的狀態,其例如在花唄業務中為每筆線上支付交易的相關特徵,包括交易屬性特徵(交易自身的特徵)、買家特徵、賣家特徵、物流特徵等。通常,第一交易資訊s1以特徵向量的形式輸入模型,s1向量的各個維度即為上述相關特徵,如交易屬性特徵、買家特徵等等。然而,第一交易資訊s1不限於以特徵向量的形式輸入,例如,其可以以特徵表格的形式輸入模型,以便於計算。 如圖1中所示,在訓練模型階段,在對第一DQN網路11輸入第一交易資訊s1之後,第一DQN網路11向策略單元12輸出Q值向量q(s1)。該向量q(s1)為二維向量,即,其包括兩個Q值預測值,其中一個對應於套現動作,另一個對應於非套現動作,其中套現動作表示s1被預測為套現交易,非套現動作表示s1被預測為非套現交易。策略單元12在接收到Q值向量q(s1)之後,根據預定的策略選定動作。例如,預定的策略可以為ε -貪婪策略。根據ε -貪婪策略,通過如下公式(1)選定動作a:
Figure 02_image001
其中ε 為0到1之間的實數,σ為隨機選定的0到1之間的實數,A(s)表示包含所有可用動作的集合。根據公式(1)可以得出,當ε較小(例如ε=0.1)時,a的取值較大機率(例如90%+5%)是向量q(s1)中包含的較大的Q預測值,較小機率(例如5%)是向量q(s1)中包含的較小的Q預測值。也就是說,a的取值機率π (a |s )如公式(2)所示:
Figure 02_image003
從而,根據上述ε -貪婪策略,通過隨機確定σ,可基於從第一DQN網路輸出的Q值向量q(s1)預測交易s1的套現預測值a1,即預測s1是否為套現交易。 如本領域技術人員所知,在Q學習演算法中,通過如下公式(3)更新Q(s,a):
Figure 02_image005
其中,s’為s的下一時刻的狀態。在本說明書實施例的應用場景中,由於交易與交易之間的相關性不強,因此,可相對於s隨機選取一個交易作為其下一時刻的狀態s’。r為動作a的回報值,如上文所述,在本說明書實施例中,當交易的套現預測值與套現標籤值一致時,r為交易s的交易金額,當交易的套現預測值與套現標籤值不一致時,r為交易s的交易金額的負數。
Figure 02_image007
表示Q函數在狀態取為s’時所獲得的與各個動作對應的Q值中的最大值。通常,將公式(3)中的α取1,從而可將上述公式(3)簡化為下面的公式(4):
Figure 02_image009
如公式(4)所示,通過獲取動作a的回報值r和下一個狀態s’的Q值的最大值,即可計算更新的Q(s,a)的值。從而,在訓練DQN網路時,可將通過公式(3)或(4)計算得到的Q值Q(s,a)作為該DQN網路輸出的Q值預測值q(s,a)的標籤值。 圖3示出了根據本說明書實施例的Q學習演算法的實現步驟,即上述公式(4)的實現步驟,包括以下步驟S302~S312,這些步驟通過圖1所示的系統100實施。 在步驟S302,獲取第一交易的第一交易資訊s1和第一套現標籤值b1,其中所述第一交易資訊s1中包括交易金額,所述第一套現標籤值b1指示所述第一交易是否被標定為套現交易。其中,第一交易資訊s1如上文所述獲取,第一套現標籤值b1與所述第一交易資訊s1一起獲取,其為業務(例如花唄業務)資料中的第一交易的歷史標定資料。 在步驟S304,獲取第二交易的第二交易資訊s2和第二套現標籤值b2,所述第二套現標籤值b2指示所述第二交易是否被標定為套現交易。第二交易資訊即為上述公式(3)或(4)中的下一時刻狀態s’。由於在本說明書實施例的場景中,例如,對於花唄中的交易,交易與交易之間的相關性不是很強,只是存在一定的時間相關性,就是說,一定時間段內的交易資料存在一定的相似性。因此,可以選定預定時段內的交易資料作為一批待處理資料。例如,可選取一天內的交易資料,選取半天內的交易資料等。在該預定時段內交易資料中,在選定第一交易以獲取第一交易的相關資料(s1,b1)之後,可隨機選取第二交易,從而獲取第二交易的相關輸入(s2,b2)。當然,本說明書中對第二交易的選取方式不限於隨機選取,例如,也可以通過根據預定時段內的交易的時刻順序進行順序選取,從而獲取第二交易的相關資料。 在步驟S306,對所述第一DQN網路輸入所述第一交易資訊s1,以獲取上述第一套現預測值a1。 在步驟S308,基於所述第一套現預測值a1、第一套現標籤值b1和所述交易金額,確定所述第一交易的回報值r。也就是說,假設第一交易的交易金額為R,則當a1=b1的情況中,r=R,當a1≠b1的情況中,r=-R。這裡,a1、b1以及上述a2的取值可以是一維數值的或二維向量。例如,可以設定其的取值為0時,對應的交易為套現交易,取值為1時,對應的交易為非套現交易。或者,通過獨熱編碼(one hot encoder)的編碼方式,將其的取值轉換為二維向量,例如設定其的取值為(1,0)時,對應的交易的為套現交易,取值為(0,1)時,對應的交易為非套現交易。 如參考圖1所述,在圖1中的樣本準備單元13中確定回報值r,樣本準備單元13從策略單元12接收第一交易的套現預測值a1,從系統外部接收第一交易的套現標籤值b2和交易金額(例如被包含在s1中),從而基於a1、b2和交易金額確定第一交易的動作a1的回報值r。在確定r之後,一態樣,樣本準備單元13利用r計算下面的第一交易的Q值標籤值Q(s1,a1)。另一態樣,將r值發送給圖1中的評估單元16。評估單元16在接收第一交易的回報值r之後,對系統的總回報值累加r,從而可以該總回報值評估系統的學習能力。總的回報值會隨著訓練迭代次數不斷增加,並在模型收斂後穩定在固定的值附近。 在步驟S310,對所述第一DQN網路輸入所述第二交易資訊s2,以基於所述第二套現標籤值b2獲取與所述第二交易資訊s2和所述第二套現標籤值b2對應的第二Q值預測值q(s2,b2)。在對所述第一DQN網路輸入第二交易資訊s2之後,第一DQN網路輸出與s2對應的Q值預測值向量q(s2),該向量q(s2)為二維向量,即,其包括兩個Q值預測值(q1,q2),可設定例如q1對應於交易為套現交易的動作,q2對應於交易為非套現交易的動作。在例如第二套現標籤值b2為獨熱碼的情況中,例如(0,1),將q(s2)與b2進行對位相乘,即(q1×0,q2×1),從而獲得二維的聯合表徵向量,例如(0,q2)。從而,可通過對表徵向量包括的兩個Q值取最大值(即非零Q值)作為第二Q值預測值q(s2,b2),例如在表徵向量為(0,q2)的情況中,q(s2,b2)=q2。 在步驟S312,基於所述回報值r和與所述第二Q值預測值q(s2,b2),計算與所述第一交易資訊s1和所述第一套現預測值a1對應的Q值標籤值Q(s1,a1)。參考上述公式(4)可以得出,Q(s1,a1)與動作a1的回報值r相關,還與s1的下一時刻狀態(即s2)的Q值預測值的最大值相關。而在本說明書實施例中,將輸入s2獲得的Q值預測值向量與b2的獨熱碼進行對位相乘,並對其取最大值,以獲得q(s2,b2),並以q(s2,b2)作為公式(4)中的
Figure 02_image011
進行計算。這是因為,由於b2為s2標籤值,也就是說,b2對應的Q值,也即q(s2,b2)根據Q學習演算法理論上應該是q(s2)包括的Q值中的最大值,因此將
Figure 02_image011
人為取定為q(s2,b2),以對Q值標籤值Q(s1,a1)進行修正。從而,基於r和q(s2,b2),根據公式(4)可計算與s1和a1對應的Q值標籤值Q(s1,a1)。 在圖1所示的系統100中,在樣本準備單元13中進行對Q值標籤值Q(s1,a1)的計算,而樣本準備單元13通過將上述計算獲得的第一交易的套現預測值a1、Q值標籤值Q(s1,a1)和從外部輸入的第一交易資訊s1集合到一起可準備一個訓練樣本,即(s1,a1,Q(s1,a1))。該訓練樣本可直接輸入圖1中的第二DQN網路15以訓練該網路。即,第二DQN網路15可從樣本準備單元13直接獲取訓練樣本。 然而,如果在訓練中的狀態轉移過程中各個狀態非獨立同分佈,會造成訓練過程的不穩定。例如,在上述準備樣本的過程中,通過選取一定時段內的第一交易(s1)和第二交易(s2)準備第一訓練樣本(s1,a1,Q1),通過選取該時段內的第三交易(s3),以準備第二訓練樣本(s2,a2,Q2),從而類似地,將該預定時段內的交易資料都準備為訓練樣本。而這些訓練樣本由於是同一個時段內的交易資料,因此訓練樣本與訓練樣本之間可能存在一定的相關性,尤其是,如果s1、s2、s3都是從交易資料中按照時刻的順序選取的,則第一樣本與第二樣本、第二樣本與第三樣本可能存在更強的相關性。 在一個實施例中,通過使用樣本隊列來對訓練DQN網路提供訓練樣本。如參考圖1中所述,樣本隊列14順序儲存有固定數目的樣本,例如,其可順序儲存分別對應於1000個交易的1000個樣本。所述樣本隊列具有後進先出的特性。例如,在對系統100輸入一批500個交易的資料,並根據上述過程準備了500個樣本並順序存入樣本隊列14之後,樣本隊列14刪除其初始保存的前500個樣本。第二DQN網路15可從樣本隊列14中隨機選取一批(例如500個)樣本進行模型訓練。通過使用樣本隊列進行樣本獲取,隊列中的資料會隨著時間行動逐步更新,即保證了取樣穩定性,抑制了由於相鄰狀態間的高關聯帶來的訓練過程的波動,同時也保證了取樣時效性。 再參考圖2,在步驟S204,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路,使得:在對所述第二DQN網路輸入所述第一交易資訊和所述第一套現預測值之後,相比於訓練前,所述第二DQN網路在訓練後輸出的Q值預測值與所述Q值標籤值之差的絕對值減小,其中所述Q值預測值與所述第一交易資訊和所述第一套現預測值對應。也就是說,在訓練中,通過調整第二DQN網路15的網路參數(權重),使得第二DQN網路15的Q值預測值更逼近Q值標籤值。 在該實施例中,採用隨機梯度下降法(SGD)對卷積神經網路進行訓練。然而,本說明書實施例中對卷積神經網路的訓練不限於隨機梯度下降法,例如,可以通過批量梯度下降法(BGD)、小批量梯度下降法(MBGD)、適應性動量估計法(Adam)、RMSprop法等本領域習知的較佳化演算法進行訓練。 在一個實施例中,通過上述公式(4)獲得第一交易的Q值標籤值Q(s1,a1)。損失函數取樣MSE(均方誤差),即損失函數L(s,a,θ )如下公式(5)所示:
Figure 02_image014
其中,γ為0到1之間的因子,θ ’為第一DQN網路11的網路參數,θ 為第二DQN網路15的參數。 根據梯度下降法,通過如下公式(6)調整第二DQN網路15的參數θ。
Figure 02_image016
其中α為調參的步幅,θ t+1 為第二DQN網路15在訓練之後的參數取值,θ t 為第二DQN網路15在訓練之前的參數取值。其中,如上文所述,公式(6)中
Figure 02_image018
Figure 02_image020
即上述計算的第一交易的Q值標籤值Q(s1,a1),
Figure 02_image022
中的s即為s1,a為上述第一交易的套現預測值a1,θ 取值為θ t 。 在訓練中,首先對第二DQN網路15輸入第一交易資訊s1,第一DQN網路依據當前參數輸出對應的Q值預測值向量q(s1)。然後,根據a1的值,從向量q(s1)中獲取與a1對應的Q值預測值q(s1,a1)。從而將Q(s1,a1)、q(s1,a1)、s1、a1和θ t 代入上述公式(6),計算得出更新的參數θ t+1 。 在該實施例中,通過隨機梯度下降法,對於每個樣本,只對θ 進行一次調參,從而通過多個樣本對θ 進行多次調整,不斷更新θ 。而隨著訓練樣本的更新,可根據不同時段的樣本特徵實時更新第二DQN網路15。第二DQN網路15可在進行預定次數(例如幾千次、千萬次等等)的訓練之後將參數遷移給第一DQN網路11。從而使得該模型根據時間窗口得到實時訓練,並適用於對當前時間窗口的交易資料進行預測。 圖4示出了根據本說明書實施例的套現識別方法,包括: 在步驟S402,獲取交易的交易資訊;以及 在步驟S404,對通過根據上述訓練套現識別模型的方法訓練獲取的套現識別模型輸入所述交易資訊,以輸出所述交易的套現預測值,所述套現預測值指示所述交易是否被預測為套現交易。 如參考圖1所述,在步驟S402,獲取第三交易的交易資訊s3。第三交易資訊s3可從模型外部的環境系統獲取,或者,可通過從資料源(例如儲存花唄業務資料的當前交易資料庫)直接獲取。與第一交易資訊s1類似地,第三交易資訊s3例如在花唄業務中為線上支付交易的相關特徵,包括交易屬性特徵(交易自身的特徵)、買家特徵、賣家特徵、物流特徵等。通常,第三交易資訊s3以特徵向量的形式輸入模型,s3向量的各個維度即為上述相關特徵,如交易屬性特徵、買家特徵等等。然而,第三交易資訊s3不限於以特徵向量的形式輸入,例如,其可以以特徵表格的形式輸入模型,以便於計算。 在步驟S404,對通過根據上述訓練套現識別模型的方法訓練獲取的套現識別模型輸入所述交易資訊,以輸出所述交易的套現預測值,所述套現預測值指示所述交易是否被預測為套現交易。在對所述套現識別模型輸入所述第三交易資訊s3之後,所述第三交易資訊s3被輸入圖1中的第一DQN網路11。第一DQN網路基於s3向策略單元12輸出與所述第三交易資訊s3對應的二維的Q值預測值向量q(s3)。在策略單元12中,如上文所述,根據例如ε -貪婪策略,基於所述Q值預測值向量q(s3)獲取所述交易的套現預測值a3,並將a3作為模型預測結果輸出。 圖5示出一種訓練套現識別模型的裝置500,所述套現識別模型包括第一DQN網路和第二DQN網路,所述裝置包括: 獲取單元51,配置為,獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值,其中,所述第一套現預測值通過對所述第一DQN網路輸入所述第一交易資訊而計算得出,並且所述第一套現預測值指示所述第一交易是否被預測為套現交易,以及其中,所述Q值標籤值通過使用Q學習演算法基於所述第一DQN網路的輸出和第一交易的第一套現標籤值計算得出,其中所述第一DQN網路的輸出包括對所述第一DQN網路輸入所述第一交易資訊的輸出、和對所述第一DQN網路輸入第二交易的第二交易資訊的輸出,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;以及 訓練單元52,配置為,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路,使得:在對所述第二DQN網路輸入所述第一交易資訊和所述第一套現預測值之後,相比於訓練前,所述第二DQN網路在訓練後輸出的Q值預測值與所述Q值標籤值之差的絕對值減小,其中所述Q值預測值與所述第一交易資訊和所述第一套現預測值對應。 在一個實施例中,所述訓練套現識別模型的裝置500還包括Q學習演算法實現單元53,所述Q學習演算法實現單元53包括以下子單元:第一獲取子單元531,配置為,獲取第一交易的第一交易資訊和第一交易的第一套現標籤值,其中所述第一交易資訊中包括交易金額,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;第二獲取子單元532,配置為,獲取第二交易的第二交易資訊和第二交易的第二套現標籤值,所述第二套現標籤值指示所述第二交易是否被標定為套現交易;第三獲取子單元533,配置為,對所述第一DQN網路輸入所述第一交易資訊,以獲取所述第一套現預測值;確定單元534,配置為,基於所述第一套現預測值、第一套現標籤值和所述交易金額,確定所述第一交易的回報值;第四獲取子單元535,配置為,對所述第一DQN網路輸入所述第二交易資訊,以獲取對應於所述第二交易資訊和所述第二套現標籤值的第二Q值預測值;以及計算單元536,配置為,基於所述回報值和與所述第二Q值預測值,計算與所述第一交易資訊和所述第一套現預測值對應的Q值標籤值。 在一個實施例中,在所述訓練套現識別模型的裝置500中,所述套現識別模型還包括樣本隊列,其中,所述樣本隊列順序儲存有固定數目的樣本,並且,所述樣本隊列在接收預定數目的樣本時刪除其排在前面的所述預定數目的已有樣本,以及其中,所述獲取單元51還配置為,從所述樣本隊列隨機獲取第一樣本,所述第一樣本包括第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值。 在一個實施例中,在所述訓練套現識別模型的裝置500中,所述訓練單元52還配置為,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值,通過隨機梯度下降法訓練所述第二DQN網路。 在一個實施例中,在所述訓練套現識別模型的裝置500中,第一獲取子單元531還配置為,對所述第一DQN網路輸入所述第一交易資訊以輸出與所述第一交易資訊對應的Q值預測值的二維向量,以及,根據ε -貪婪策略,基於所述向量獲取第一套現預測值。 在一個實施例中,在所述訓練套現識別模型的裝置500中,第四獲取子單元535還配置為:對所述第一DQN網路輸入所述第二交易資訊,以獲取與所述第二交易資訊對應的二維的Q值預測值向量;通過對所述第二套現標籤值進行獨熱編碼,以獲取二維的第二套現標籤值向量;將所述Q值預測值向量與所述第二套現標籤值向量進行對位相乘,以獲取二維的聯合表徵向量;以及獲取所述聯合表徵向量中的非零Q值作為所述第二Q值預測值。 在一個實施例中,在所述訓練套現識別模型的裝置500中,所述確定單元534還配置為,在所述第一套現預測值與所述第一套現標籤值一致的情況中,確定所述第一交易的回報值等於所述交易金額,在所述第一套現預測值與所述第一套現標籤值不一致的情況中,確定所述第一交易的回報值等於所述交易金額的負數。 在一個實施例中,所述訓練套現識別模型的裝置500還包括累加單元54,配置為,在基於所述第一套現預測值、第一套現標籤值和交易金額,確定所述第一交易的回報值之後,對所述模型的總回報值累加所述第一交易的回報值。 圖6示出一種套現識別裝置600,包括:獲取單元61,配置為,獲取交易的交易資訊;以及預測單元62,配置為,對通過根據上述訓練方法訓練獲取的套現識別模型輸入所述交易資訊,以獲取所述交易的套現預測值,所述套現預測值指示所述交易是否被預測為套現交易。 在一個實施例中,在所述套現識別裝置600中,所述預測單元62還配置為,對所述套現識別模型輸入所述交易資訊,以獲取與所述交易資訊對應的二維的Q值預測值向量,以及,根據ε -貪婪策略,基於所述Q值預測值向量獲取所述交易的套現預測值。 通過根據本說明書實施例的套現識別方案,將DQN強化學習機制引入套現交易識別中,將交易相關的特徵作為輸入模型的狀態,將交易標籤作為輸入模型的套現標籤值,將交易金額作為模型做出動作選擇後可以獲取的回報,從而建立了端對端的交易識別系統。針對套現識別與模型訓練分別建立DQN網路,模型訓練網路參數隨著訓練過程實時更新,並每隔一定的迭代次數將其參數遷移給套現識別DQN。通過將交易的金額作為強化學習模型的回報,將金額納入學習過程中,模型如果能夠正確地識別大額的套現交易將可獲得較大的正收益,如果誤判則會造成較大的負收益,因此模型針對大額交易的處理將會更加的謹慎,這種機制更加符合業務的需要。通過使用深度神經網路作為值函數的逼近函數,神經網路的訓練採用分批次小批量輸入的方式進行。對於增量樣本資料,皆可使用該機制訓練,有助於降低模型更新迭代的時間開銷與資源開銷,加快模型的收斂速度。通過使用經驗回放、隨機取樣和批量資料訓練機制,即通過固定長度的記憶隊列儲存訓練資料,新的時刻的訓練樣本會將歷史時刻的樣本擠出,實現了按時間窗口取樣的效果;隨機取樣則保證了樣本在時間維度上的相對隨機性。 上述對本說明書特定實施例進行了描述。其它實施例在所附申請專利範圍的範圍內。在一些情況下,在申請專利範圍中記載的動作或步驟可以按照不同於實施例中的順序來執行並且仍然可以實現期望的結果。另外,在圖式中描繪的過程不一定要求示出的特定順序或者連續順序才能實現期望的結果。在某些實施方式中,多工處理和平行處理也是可以的或者可能是有利的。 本領域普通技術人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及演算法步驟,能夠以電子硬體、電腦軟體或者二者的結合來實現,為了清楚地說明硬體和軟體的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執行,取決於技術方案的特定應用和設計約束條件。本領域普通技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出本發明的範圍。 結合本文中所公開的實施例描述的方法或演算法的步驟可以用硬體、處理器執行的軟體模組,或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、內部記憶體、唯讀記憶體(ROM)、電可程式ROM、電可抹除可程式ROM、暫存器、硬碟、可行動磁碟、CD-ROM、或技術領域內所習知的任意其它形式的儲存媒體中。 以上所述的具體實施方式,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式而已,並不用於限定本發明的保護範圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
100‧‧‧套現識別系統 11‧‧‧第一DQN網路 12‧‧‧策略單元 13‧‧‧樣本準備單元 14‧‧‧樣本隊列 15‧‧‧第二DQN網路 16‧‧‧評估單元 202‧‧‧步驟 204‧‧‧步驟 302‧‧‧步驟 304‧‧‧步驟 306‧‧‧步驟 308‧‧‧步驟 310‧‧‧步驟 312‧‧‧步驟 402‧‧‧步驟 404‧‧‧步驟 500‧‧‧裝置 51‧‧‧獲取單元 52‧‧‧訓練單元 53‧‧‧Q學習演算法實現單元 54‧‧‧累加單元 531‧‧‧第一獲取子單元 532‧‧‧第二獲取子單元 533‧‧‧第三獲取子單元 534‧‧‧確定單元 535‧‧‧第四獲取子單元 536‧‧‧計算單元 600‧‧‧套現識別裝置 61‧‧‧獲取單元 62‧‧‧預測單元
通過結合圖式描述本說明書實施例,可以使得本說明書實施例更加清楚: 圖1示出了根據本說明書實施例的套現識別系統100的示意圖; 圖2示出了根據本說明書實施例的訓練套現識別模型的方法; 圖3示出了根據本說明書實施例的Q學習演算法的實現步驟; 圖4示出了根據本說明書實施例的套現識別方法; 圖5示出一種訓練套現識別模型的裝置500;以及 圖6示出一種套現識別裝置600。

Claims (28)

  1. 一種訓練套現識別模型的方法,所述套現識別模型包括第一DQN網路和第二DQN網路,所述方法包括: 獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及對應於所述第一交易資訊和所述第一套現預測值的Q值標籤值,其中,所述第一套現預測值通過對所述第一DQN網路輸入所述第一交易資訊而計算得出,並且所述第一套現預測值指示所述第一交易是否被預測為套現交易,以及其中,所述Q值標籤值通過使用Q學習演算法基於所述第一DQN網路的輸出和所述第一交易的第一套現標籤值計算得出,其中所述第一DQN網路的輸出包括對所述第一DQN網路輸入所述第一交易資訊的輸出、和對所述第一DQN網路輸入第二交易的第二交易資訊的輸出,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;以及 利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路,使得:在對所述第二DQN網路輸入所述第一交易資訊和所述第一套現預測值之後,相比於訓練前,所述第二DQN網路在訓練後輸出的Q值預測值與所述Q值標籤值之差的絕對值減小,其中所述Q值預測值對應於所述第一交易資訊和所述第一套現預測值。
  2. 根據請求項1所述的訓練套現識別模型的方法,其中所述Q學習演算法通過以下步驟實現: 獲取第一交易的第一交易資訊和第一交易的第一套現標籤值,其中所述第一交易資訊中包括交易金額,所述第一套現標籤值指示所述第一交易是否被標定為套現交易; 獲取第二交易的第二交易資訊和第二交易的第二套現標籤值,所述第二套現標籤值指示所述第二交易是否被標定為套現交易; 對所述第一DQN網路輸入所述第一交易資訊,以獲取所述第一套現預測值; 基於所述第一套現預測值、第一套現標籤值和所述交易金額,確定所述第一交易的回報值; 對所述第一DQN網路輸入所述第二交易資訊,以獲取對應於所述第二交易資訊和所述第二套現標籤值的第二Q值預測值;以及 基於所述回報值和所述第二Q值預測值,計算對應於所述第一交易資訊和所述第一套現預測值的Q值標籤值。
  3. 根據請求項1所述的訓練套現識別模型的方法,其中,所述第一DQN網路的參數基於所述第二DQN網路的參數設置。
  4. 根據請求項1所述的訓練套現識別模型的方法,其中,所述第一DQN網路通過所述方法得到訓練。
  5. 根據請求項1所述的訓練套現識別模型的方法,其中,所述套現識別模型還包括樣本隊列,其中,所述樣本隊列順序儲存有固定數目的樣本,並且,所述樣本隊列在接收預定數目的樣本時刪除其排在前面的所述預定數目的已有樣本,以及 其中,獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及對應於所述第一交易資訊和所述第一套現預測值的Q值標籤值包括,從所述樣本隊列隨機獲取第一樣本,所述第一樣本包括第一交易的第一交易資訊、第一交易的第一套現預測值、以及對應於所述第一交易資訊和所述第一套現預測值的Q值標籤值。
  6. 根據請求項1所述的訓練套現識別模型的方法,其中所述第一交易資訊包括交易屬性資訊、買家資訊、賣家資訊以及物流資訊。
  7. 根據請求項1所述的訓練套現識別模型的方法,其中所述第一或第二DQN網路包括以下一種神經網路:LSTM、DNN、CNN和RNN。
  8. 根據請求項1所述的訓練套現識別模型的方法,其中,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路包括,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值,通過隨機梯度下降法訓練所述第二DQN網路。
  9. 根據請求項2所述的訓練套現識別模型的方法,其中,對所述第一DQN網路輸入所述第一交易資訊,以獲取第一套現預測值包括,對所述第一DQN網路輸入所述第一交易資訊,以獲取與所述第一交易資訊對應的二維的Q值預測值向量,以及,根據ε-貪婪策略,基於所述Q值預測值向量獲取所述第一套現預測值。
  10. 根據請求項2所述的訓練套現識別模型的方法,其中,對所述第一DQN網路輸入所述第二交易資訊,以獲取對應於所述第二交易資訊和所述第二套現標籤值的第二Q值預測值包括: 對所述第一DQN網路輸入所述第二交易資訊,以獲取與所述第二交易資訊對應的二維的Q值預測值向量; 通過對所述第二套現標籤值進行獨熱編碼,以獲取二維的第二套現標籤值向量; 將所述Q值預測值向量與所述第二套現標籤值向量進行對位相乘,以獲取二維的聯合表徵向量;以及 獲取所述聯合表徵向量中的非零Q值作為所述第二Q值預測值。
  11. 根據請求項2所述的訓練套現識別模型的方法,其中,基於所述第一套現預測值、第一套現標籤值和交易金額,確定所述第一交易的回報值包括,在所述第一套現預測值與所述第一套現標籤值一致的情況中,確定所述第一交易的回報值等於所述交易金額,在所述第一套現預測值與所述第一套現標籤值不一致的情況中,確定所述第一交易的回報值等於所述交易金額的負數。
  12. 根據請求項2所述的訓練套現識別模型的方法,還包括,在基於所述第一套現預測值、第一套現標籤值和交易金額,確定所述第一交易的回報值之後,對所述模型的總回報值累加所述第一交易的回報值。
  13. 一種套現識別方法,包括: 獲取交易的交易資訊;以及 對通過根據請求項1-4中任一項所述的方法訓練獲取的套現識別模型輸入所述交易資訊,以獲取所述交易的套現預測值,所述套現預測值指示所述交易是否被預測為套現交易。
  14. 根據請求項13所述的套現識別方法,其中,對所述套現識別模型輸入所述交易資訊,以獲取所述交易的套現預測值包括,對所述套現識別模型輸入所述交易資訊,以獲取與所述交易資訊對應的二維的Q值預測值向量,以及,根據ε -貪婪策略,基於所述Q值預測值向量獲取所述交易的套現預測值。
  15. 一種訓練套現識別模型的裝置,所述套現識別模型包括第一DQN網路和第二DQN網路,所述裝置包括: 獲取單元,配置為,獲取第一交易的第一交易資訊、第一交易的第一套現預測值、以及對應於所述第一交易資訊和所述第一套現預測值的Q值標籤值,其中,所述第一套現預測值通過對所述第一DQN網路輸入所述第一交易資訊而計算得出,並且所述第一套現預測值指示所述第一交易是否被預測為套現交易,以及其中,所述Q值標籤值通過使用Q學習演算法基於所述第一DQN網路的輸出和所述第一交易的第一套現標籤值計算得出,其中所述第一DQN網路的輸出包括對所述第一DQN網路輸入所述第一交易資訊的輸出、和對所述第一DQN網路輸入第二交易的第二交易資訊的輸出,所述第一套現標籤值指示所述第一交易是否被標定為套現交易;以及 訓練單元,配置為,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值訓練所述第二DQN網路,使得:在對所述第二DQN網路輸入所述第一交易資訊和所述第一套現預測值之後,相比於訓練前,所述第二DQN網路在訓練後輸出的Q值預測值與所述Q值標籤值之差的絕對值減小,其中所述Q值預測值對應於所述第一交易資訊和所述第一套現預測值。
  16. 根據請求項15所述的訓練套現識別模型的裝置,還包括Q學習演算法實現單元,所述Q學習演算法實現單元包括以下子單元: 第一獲取子單元,配置為,獲取第一交易的第一交易資訊和第一交易的第一套現標籤值,其中所述第一交易資訊中包括交易金額,所述第一套現標籤值指示所述第一交易是否被標定為套現交易; 第二獲取子單元,配置為,獲取第二交易的第二交易資訊和第二交易的第二套現標籤值,所述第二套現標籤值指示所述第二交易是否被標定為套現交易; 第三獲取子單元,配置為,對所述第一DQN網路輸入所述第一交易資訊,以獲取所述第一套現預測值; 確定單元,配置為,基於所述第一套現預測值、第一套現標籤值和所述交易金額,確定所述第一交易的回報值; 第四獲取子單元,配置為,對所述第一DQN網路輸入所述第二交易資訊,以獲取對應於所述第二交易資訊和所述第二套現標籤值的第二Q值預測值;以及 計算單元,配置為,基於所述回報值和與所述第二Q值預測值,計算與所述第一交易資訊和所述第一套現預測值對應的Q值標籤值。
  17. 根據請求項15所述的訓練套現識別模型的裝置,其中,所述第一DQN網路的參數基於所述第二DQN網路的參數設置。
  18. 根據請求項15所述的訓練套現識別模型的裝置,其中,所述第一DQN網路通過所述裝置得到訓練。
  19. 根據請求項15所述的訓練套現識別模型的裝置,其中,所述套現識別模型還包括樣本隊列,其中,所述樣本隊列順序儲存有固定數目的樣本,並且,所述樣本隊列在接收預定數目的樣本時刪除其排在前面的所述預定數目的已有樣本,以及 其中,所述獲取單元還配置為,從所述樣本隊列隨機獲取第一樣本,所述第一樣本包括第一交易的第一交易資訊、第一交易的第一套現預測值、以及與所述第一交易資訊和第一套現預測值對應的Q值標籤值。
  20. 根據請求項15所述的訓練套現識別模型的裝置,其中所述第一交易資訊包括交易屬性資訊、買家資訊、賣家資訊以及物流資訊。
  21. 根據請求項15所述的訓練套現識別模型的裝置,其中所述第一或第二DQN網路中包括以下一種神經網路:LSTM、DNN、CNN和RNN。
  22. 根據請求項15所述的訓練套現識別模型的裝置,其中,所述訓練單元還配置為,利用所述第一交易資訊、所述第一套現預測值和所述Q值標籤值,通過隨機梯度下降法訓練所述第二DQN網路。
  23. 根據請求項16所述的訓練套現識別模型的裝置,其中,所述第一獲取子單元還配置為,對所述第一DQN網路輸入所述第一交易資訊,以獲取與所述第一交易資訊對應的二維的Q值預測值向量,以及,根據ε -貪婪策略,基於所述Q值預測值向量獲取所述第一套現預測值。
  24. 根據請求項16所述的訓練套現識別模型的裝置,其中,所述第四獲取子單元還配置為: 對所述第一DQN網路輸入所述第二交易資訊,以獲取與所述第二交易資訊對應的二維的Q值預測值向量; 通過對所述第二套現標籤值進行獨熱編碼,以獲取二維的第二套現標籤值向量; 將所述Q值預測值向量與所述第二套現標籤值向量進行對位相乘,以獲取二維的聯合表徵向量;以及 獲取所述聯合表徵向量中的非零Q值作為所述第二Q值預測值。
  25. 根據請求項16所述的訓練套現識別模型的裝置,其中,所述確定單元還配置為,在所述第一套現預測值與所述第一套現標籤值一致的情況中,確定所述第一交易的回報值等於所述交易金額,在所述第一套現預測值與所述第一套現標籤值不一致的情況中,確定所述第一交易的回報值等於所述交易金額的負數。
  26. 根據請求項16所述的訓練套現識別模型的裝置,還包括累加單元,配置為,在基於所述第一套現預測值、第一套現標籤值和交易金額,確定所述第一交易的回報值之後,對所述模型的總回報值累加所述第一交易的回報值。
  27. 一種套現識別裝置,包括: 獲取單元,配置為,獲取交易的交易資訊;以及 預測單元,配置為,對通過根據請求項1-4中任一項所述的方法訓練獲取的套現識別模型輸入所述交易資訊,以獲取所述交易的套現預測值,所述套現預測值指示所述交易是否被預測為套現交易。
  28. 根據請求項27所述的套現識別裝置,其中,所述預測單元還配置為,對所述套現識別模型輸入所述交易資訊,以獲取與所述交易資訊對應的二維的Q值預測值向量,以及,根據ε -貪婪策略,基於所述Q值預測值向量獲取所述交易的套現預測值。
TW108110466A 2018-06-22 2019-03-26 套現識別方法和裝置 TW202001749A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810651125.9 2018-06-22
CN201810651125.9A CN108985920A (zh) 2018-06-22 2018-06-22 套现识别方法和装置

Publications (1)

Publication Number Publication Date
TW202001749A true TW202001749A (zh) 2020-01-01

Family

ID=64538042

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108110466A TW202001749A (zh) 2018-06-22 2019-03-26 套現識別方法和裝置

Country Status (4)

Country Link
US (1) US20190392314A1 (zh)
CN (1) CN108985920A (zh)
TW (1) TW202001749A (zh)
WO (1) WO2019246291A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741172B (zh) * 2018-12-26 2021-03-23 厦门市七星通联科技有限公司 信贷预警方法、装置、系统及存储介质
CN110263979B (zh) * 2019-05-29 2024-02-06 创新先进技术有限公司 基于强化学习模型预测样本标签的方法及装置
CN110781969B (zh) * 2019-10-30 2023-06-23 龙岩烟草工业有限责任公司 基于深度强化学习的空调风量控制方法、装置以及介质
CN111047148B (zh) * 2019-11-21 2023-05-26 山东科技大学 一种基于强化学习的虚假评分检测方法
US11429996B2 (en) * 2020-01-21 2022-08-30 International Business Machines Corporation System and method for generating preferred ameliorative actions using generative adversarial networks
CN111429006A (zh) * 2020-03-24 2020-07-17 北京明略软件系统有限公司 金融风险指标预测模型构建、风险态势预测方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
KR101779036B1 (ko) * 2016-01-08 2017-09-15 한국인터넷진흥원 머신러닝을 이용하여 이상거래를 탐지하기 위한 장치 및 그 방법
CN107341436B (zh) * 2016-08-19 2019-02-22 北京市商汤科技开发有限公司 手势检测网络训练、手势检测及控制方法、系统及终端
CN107358293B (zh) * 2017-06-15 2021-04-02 北京图森智途科技有限公司 一种神经网络训练方法及装置
CN107563885A (zh) * 2017-08-08 2018-01-09 阿里巴巴集团控股有限公司 一种套现识别方法和装置
US20190190538A1 (en) * 2017-12-18 2019-06-20 Facebook, Inc. Accelerator hardware for compression and decompression
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks
US11593659B2 (en) * 2018-03-30 2023-02-28 Visa International Service Association Method, system, and computer program product for implementing reinforcement learning

Also Published As

Publication number Publication date
CN108985920A (zh) 2018-12-11
WO2019246291A1 (en) 2019-12-26
US20190392314A1 (en) 2019-12-26

Similar Documents

Publication Publication Date Title
TW202001749A (zh) 套現識別方法和裝置
US11863644B2 (en) Push notification delivery system with feedback analysis
CN110520871B (zh) 使用学习进度测量训练机器学习模型
WO2020094060A1 (zh) 推荐方法及装置
WO2021139524A1 (zh) 利用lstm神经网络模型处理交互数据的方法及装置
CN110020662B (zh) 用户分类模型的训练方法和装置
CN111783810B (zh) 用于确定用户的属性信息的方法和装置
WO2022198983A1 (zh) 一种对话推荐方法、装置、电子设备及存储介质
US20220100720A1 (en) Method and system for entity resolution
CN113743991A (zh) 生命周期价值预测方法及装置
CN112036954A (zh) 物品推荐方法和装置、计算机可读存储介质、电子设备
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN113779380B (zh) 跨域推荐、内容推荐方法、装置及设备
CN113034168A (zh) 内容项投放方法、装置、计算机设备及存储介质
WO2021139513A1 (zh) 处理交互序列数据的方法及装置
Elgohary et al. Smart evaluation for deep learning model: churn prediction as a product case study
CN114119123A (zh) 信息推送的方法和装置
CN115809374B (zh) 纠正推荐系统主流偏差的方法、系统、设备及存储介质
CN116401522A (zh) 一种金融服务动态化推荐方法和装置
CN116361643A (zh) 实现对象推荐的模型训练方法及对象推荐方法及相关装置
CN112085040A (zh) 对象标签确定方法、装置和计算机设备
CN115994588B (zh) 基于区块链与合同理论的数据处理方法、装置及设备
CN110858235B (zh) 热启动广义加性混合效应(game)框架
US20230252269A1 (en) Sequential model for determining user representations
CN117454956A (zh) 项目推荐模型的训练方法、项目推荐方法及相关设备