TW201537366A - 大數據處理方法及平台 - Google Patents

大數據處理方法及平台 Download PDF

Info

Publication number
TW201537366A
TW201537366A TW103118591A TW103118591A TW201537366A TW 201537366 A TW201537366 A TW 201537366A TW 103118591 A TW103118591 A TW 103118591A TW 103118591 A TW103118591 A TW 103118591A TW 201537366 A TW201537366 A TW 201537366A
Authority
TW
Taiwan
Prior art keywords
data
predetermined
order
user
amount
Prior art date
Application number
TW103118591A
Other languages
English (en)
Other versions
TWI650653B (zh
Inventor
Yun Yue
Ji Huang
Zhi Ning
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201537366A publication Critical patent/TW201537366A/zh
Application granted granted Critical
Publication of TWI650653B publication Critical patent/TWI650653B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/405Establishing or using transaction specific rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/085Payment architectures involving remote charge determination or related payment systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/10Payment architectures specially adapted for electronic funds transfer [EFT] systems; specially adapted for home banking systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/389Keeping log of transactions for guaranteeing non-repudiation of a transaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本申請實施例公開了一種大數據處理方法和大數據處理平台。一種大數據處理方法實施例包括:接收包含用戶第一數據的請求信息;如果該第一數據大於預定限額,查詢該用戶的歷史數據;基於該歷史數據在聚類後的分類中查找對應分類;將查找到的對應分類按照預定映射規則得到動態額度;如果該第一數據不大於預定限額與動態額度之和,則批准該請求信息。利用本申請實施例,可以節省硬體資源的開銷。

Description

大數據處理方法及平台
本申請係關於大數據處理技術領域,特別關於一種大數據處理方法及平台。
網際網路每天產生著巨大數量的數據。例如,國內的博客、微博、交易平台,國外的Twitter、Facebook等社交網絡,每天都在產生著海量的數據。數據已經滲透到每一個行業和業務職能領域,交易過程、產品使用和人類行為都可以數據化。可見,數據已成為重要的生產因素。
這些數據看似龐雜沒有規律可循,但是,從整體分佈上,有存在一定的特性,能夠反映某些特點。從海量龐雜的數據中,如何挖掘、處理得到有用的信息,是大數據和數據挖掘(Data Mining)領域的重要研究課題。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
大數據挖掘中,一種重要的處理是對大數據進行聚類處理。大量的數據對象的集合可被劃分為一系列有意義的 子集,即聚類。聚類分析是把一組數據對象按照相似性和差異性分為幾個類別,其目的是使得屬於同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等多種領域。
聚類處理通常包括對數據對象分組,把相似的數據對象聚在一個類裡。現有技術中一種典型的聚類方法包括K-MEANS算法。這種算法接收輸入的聚類個數k,並接收包含N個數據對象的數據庫,將該N個數據對象輸出至滿足方差最小標準的k個聚類中。劃分至k個聚類中的N個數據對象,同一聚類中的數據對象相似度較高,而不同聚類中的數據對象相似度較小。通常,這種聚類相似度可以利用各聚類中數據對象的均值所獲得一個“中心對象”(引力中心)來進行計算。
K-MEANS算法的實現過程具體包括:(1)從n個數據對象任意選擇k個對象作為初始聚類中心;(2)根據每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;並根據最小距離重新對相應對象進行劃分;(3)重新計算每個(有變化)聚類的均值(中心對象);(4)計算標準測度函數,當滿足一定條件,如函數收斂時,則算法終止;如果條件不滿足則回到步驟 (2)。
在實現本申請過程中,發明人發現現有技術中至少存在如下問題:現有技術中採用K-MEANS算法進行聚類的過程,常針對n為固定值的情況。對於數據數量n為變化值的情況,在處理過程中,n每變化一次,例如n的值增加1個,對應的情況例如需要處理的數據增加1個新的數據記錄,則需要重新執行上述步驟(1)~(4)的過程。
對於大數據而言,需要相當大的硬體資源執行上述聚類過程,且當數據數量發生變化時需要重新執行一次上述過程。這種方式佔用硬體資源的很大開銷。
本申請實施例的目的是提供一種大數據處理方法及平台,以節省硬體資源的開銷。
為解決上述技術問題,本申請實施例提供一種大數據處理方法及平台是這樣實現的:一種大數據處理方法,包括:接收包含用戶第一數據的請求信息;如果該第一數據大於預定限額,查詢該用戶的歷史數據;基於該歷史數據在聚類後的分類中查找對應分類;將查找到的對應分類按照預定映射規則得到動態額度; 如果該第一數據不大於預定限額與動態額度之和,則批准該請求信息。
一種大數據處理平台,包括:接收單元,用於接收包含用戶第一數據的請求信息;查詢單元,用於當該第一數據大於預定限額時,查詢該用戶的歷史數據;查找單元,基於該歷史數據在聚類後的分類中查找對應分類;映射單元,用於將查找到的對應分類按照預定映射規則得到動態額度;審核單元,用於當該第一數據不大於預定限額與動態額度之和時,批准該請求信息。
由以上本申請實施例提供的技術方案可見,本申請實施例中的聚類可以預先根據預定數量的大數據完成。在新接收到用戶傳來數據請求的情況下,不需要將包括該新接收數據的大量數據重新進行聚類,相反,基於該用戶歷史數據在聚類後的分類中可以查找到對應分類,從而依據預定映射規則可以得到動態額度。這樣,可以節省硬體資源的開銷。
410‧‧‧接收單元
420‧‧‧查詢單元
430‧‧‧查找單元
440‧‧‧映射單元
450‧‧‧審核單元
460‧‧‧預定限額計算單元
461‧‧‧排序單元
462‧‧‧判斷單元
463‧‧‧剔除單元
464‧‧‧設置單元
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是 本申請中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本申請大數據處理方法一個實施例的流程圖;圖2為本申請大數據處理方法一實施例中群落和離群點示意圖;圖3為本申請大數據處理方法一實施例中剔除離群點算法的示意圖;圖4為本申請大數據處理平台一個實施例的模塊圖;圖5為本申請大數據處理平台一個實施例的模塊圖;圖6為本申請大數據處理方法中利用決策樹進行分類的示意圖。
本申請實施例提供一種大數據處理方法及平台。
為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基於本申請中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本申請保護的範圍。
隨著電子商務的普及,支付平台在人們的日常生活中扮演了越來越重要的作用。透過綁定用戶的銀行卡,支付 平台為用戶支付帶來了很大的便利,創造了良好的支付體驗,但同時,支付的便捷性也增加了交易的風險,這對風險控制提出了更高的要求,其中重要的控制手段就是對用戶的消費進行限額管理。支付平台可以對用戶交易進行限額管理。現有技術中的,較常用的方式是按照固定限額對交易進行限制。例如,支付平台可以設置白名單,對白名單中的用戶給予較高的限額,對於不在白名單中的用戶給予較低的限額。進而判斷用戶消費是否超過限額以限制交易進行。這種方式中,限額通常是由人工指定且固定不變的,不能根據不同用戶、不同場景靈活調整。
大數據中的聚類方法,可以應用於限額的制定,以靈活調整不同用戶、不同場景中的限額,並設法節省硬體資源的開銷。以下結合附圖1說明本申請大數據處理方法一實施例:
S100:接收包含用戶第一數據的請求信息。
該請求信息中可以包含用戶的訂單,例如發送至交易平台的購買商品的訂單信息。
該第一數據,可以包括訂單信息中的待支付的金額。
此外,該第一數據,還可以包括訂單信息中的商品種類。
S200:如果該第一數據大於預定限額,查詢該用戶的歷史數據。
該預定限額,可以是人為指定的,例如由系統設定或由用戶指定,此外,也可以是經支付平台計算得到。
對於後者的情況,該支付平台可以按照一定的規則計算得到。例如,可以透過基於密度的離群點剔除模型確定該預定額度。從原理上講,具體的,例如將該用戶歷史訂單中各筆交易中訂單金額的差值看作一維空間上的“距離”,將所有看作“群落”,則每個“群落”裡特別稀疏的點看作是“離群點”。如附圖2中所示,A區域的點較為集中,為群落中密集的點;B、C、D分佈相對較為稀疏,為“離群點”。在計算機實現的過程中,可以透過以下算法剔除離群點:
S201:將用戶的歷史訂單中的訂單金額排序。
排序後的訂單例如分別為:d 1,d 2,…,d n 。該排序,例如可以是從大到小排序。
S202:將符合下式的d i判斷為離群點:|d i -d i-k |>C,i=k+1,…,n (1)
式(1)中,i表示第i筆訂單,d 1,d 2,…,d n 是按照訂單金額排序後的訂單金額,C為給定的閾值,k為預設距離。則透過上式,第i筆訂單距離它k筆訂單的金額大於某個值時,被認為是離群點。
S203:剔除離群點。
S204:將剔除離群點後的群落中的最大值設為預定限額。
一個結合具體數字的例子可以參見附圖3所示。按照由小到大排序後的訂單金額為d 1=100,d 2=110,d 3=123,d 4=195,d 5=229,d 6=1410,d 7=2100。C設為300,k設為 3。則有上式(1)可得:|d 6-d 3 |=1287>300=C,|d 7-d 4 |=1905>300=C,因此,d 6d 7判斷為離群點。
將上述離群點從群落中剔除,剩餘群落中的點包括d 1~d 5
d 1~d 5最大值為229,則將該最大值229設為預定限額。
此外,如前所述,該第一數據可能包括訂單信息中的商品種類,即第一數據中的金額可能是眾多商品中某一或某些商品的金額。這些不同商品種類可能對應不同交易場景。
該訂單信息可以包括單一場景下的訂單信息,相應地,該預定限額可以包括單一場景下的預定限額。
該訂單信息可以包括不同場景下的訂單信息。對於該訂單信息包括不同場景下的訂單信息的情況,相應地,該預定限額可以包括不同場景下的預定限額。可以利用上述S201~S204的算法計算不同場景的預定限額。
S300:基於該歷史數據在聚類後的分類中查找對應分類。
該聚類後的分類,可以是支付平台對預定數量的大數據進行聚類處理後得到的分類。
該聚類操作,可以選取預定數量的數據對象執行聚類。對於大數據而言,可以視數據規模選擇具有足夠代表 性數量的數據對象。
對於每個用戶一組數據對象來說,一個用戶對應的數據對象可以包括一個或多個數據。可以對包括一個或多個數據的數據對象執行聚類。
在一個具體的例子當中,每個用戶數據對象例如包括最近一次消費、消費頻率和消費金額這三項指標的數據。
在眾多的客戶關係管理(Customer Relationship Management,CRM)的分析模式中,RFM(Recency、Frequency、Monetary,分別指最近一次消費、消費頻率和消費金額)模型是被廣泛提到的。RFM模型被認為是衡量客戶價值和客戶創利能力的重要工具和手段。該模型透過一個客戶的近期購買行為、購買的總體頻率以及花了多少錢三項指標來描述該客戶的價值狀況。理論上,上一次消費時間近的顧客應該是消費潛力較大的顧客,對提供即時的商品或是服務也最有可能會有反應。大量歷史數據顯示,如果讓消費者購買,他們很有可能會持續購買。消費頻率是顧客在限定期間內所購買的次數。可以說最常購買的顧客,也是滿意度最高的顧客。如果相信品牌及商店忠誠度的話,最常購買的消費者,忠誠度也就最高。消費金額可以是限定時間內消費總金額。消費金額是最有力的預測指標。帕雷托法則(Pareto's Law)說明:公司80%的收入來自20%的顧客。排名前10%的顧客所花費的金額可能比下一個等級者多出至少2倍,占公司所有營業額的40%以上。如果考慮累計百分比,會發現有40%的顧客貢獻公司 總營業額的80%;而有60%的客戶占營業額的90%以上。
結合最近一次消費、消費頻率和消費金額這三項指標這三個指標,對其進行數據分析,得到聚類結果。按照聚類結果,例如可以形成3個分類。這裡的具體聚類算法,可以參考上述K-MEANS算法實現,也可以是採用DBSCAN算法或者凝聚層次聚類算法等已知方式實現。
在聚類完成並得到對應分類之後,可以基於該用戶的歷史數據對應至相應的分類。例如前述形成的3個分類分別以高、中、低代表,則可以得出該用戶的分類。
該用戶的歷史數據可以採用RFM方式轉換為數值。進而可以採用決策樹對該用戶的歷史數據進行處理得到適當的分類。例如,結合該用戶的歷史數據按照RFM評分規則進行評分,可以得到該用戶的RFM值。
該採用決策樹的方式例如如圖6所示。該聚類後的分類例如為:同時滿足R>3.5,F>4,M>4的可以分類為高級別的用戶,同時滿足R<2,F<2,M<2的可以分類為低級別的用戶,其它可以分類為中級別的用戶。該用戶的歷史數據轉換為的RFM值例如為R=3.7,F=4.1,M=4.3。則按照圖6所示的決策樹,可以將該R=3.7,F=4.1,M=4.3的用戶分類為高。
S400:將查找到的對應分類按照預定映射規則得到動態額度。
可以將S300中提到的分類映射至一個值,並將該值作為動態額度。例如,高透過映射規則映射至2000,中 透過映射規則映射至1000,低映射至500。
這種映射規則可以根據需要或經驗設置。
S500:如果該第一數據不大於預定限額與動態額度之和,則批准該請求信息。
當第一數據大於預定限額時,可以根據大數據分析結果,考慮請求該第一數據的用戶所屬的分類,從而根據所屬分類適當臨時提高限額。該臨時提高後的限額可以是預定限額與動態額度之和。如果第一數據不大於預定限額與動態額度之和,則批准該請求信息。此外,如果第一數據大於預定限額與動態額度之和,則可以拒絕該請求。
本申請上述實施例的方法,聚類可以預先根據預定數量的大數據完成。在新接收到用戶傳來數據請求的情況下,不需要將包括該新接收數據的大量數據重新進行聚類,相反,基於該用戶歷史數據在聚類後的分類中可以查找到對應分類,從而依據預定映射規則可以得到動態額度。這樣,預定額度和動態額度之和可以作為臨時的額度,進而判斷該用戶傳來包括數據的請求是否可以批准。
在一個結合如前述支付過程的例子中,例如用戶A向支付平台發出請求信息,該請求信息中包括訂單信息,具體的,包括待支付金額為2500元。該用戶的預定限額,例如根據上述S201~S204的算法計算得到的結果為2000元。根據該用戶的歷史數據在聚類後的分類中得到得到該用戶的分類為中,而中這一分類對應動態額度為1000元。這樣,臨時額度為預定限額與動態額度之和,即 3000元。該用戶請求的訂單信息和周總待支付金額2500小於臨時額度3000,可以批准該訂單信息。如果該用戶請求信息中的待支付金額為3500元,則由於大於臨時額度3000,可以拒絕該訂單信息。
以下介紹本申請一種大數據處理平台的實施例,如圖4所示,該大數據處理平台包括: 接收單元410,用於接收包含用戶第一數據的請求信息;查詢單元420,用於當該第一數據大於預定限額時,查詢該用戶的歷史數據;查找單元430,基於該歷史數據在聚類後的分類中查找對應分類;映射單元440,用於將查找到的對應分類按照預定映射規則得到動態額度;審核單元450,用於當該第一數據不大於預定限額與動態額度之和時,批准該請求信息。
在一個實施例中,該請求信息可以包含訂單信息,該第一數據可以包括訂單信息中的待支付金額。
在一個實施例中,該訂單信息包括單一場景下的訂單信息,該預定限額包括單一場景下的預定限額;或,該訂單信息包括不同場景下的訂單信息,該預定限額包括不同場景下的預定限額。
該大數據處理平台還可以如圖5所示,包括預定限額計算單元460,該預定限額計算單元460包括: 排序單元461,用於將用戶的歷史訂單中的訂單金額排序;判斷單元462,用於將符合下式的判斷為離群點:|d i -d i-k |>C,i=k+1,…,n
上式中,i表示第i筆訂單,d 1,d 2,…,d n 是按照訂單金額排序後的訂單金額,C為給定的閾值,k為預設距離;剔除單元463,用於剔除離群點;設置單元464,用於將剔除離群點後的群落中的最大值設為預定限額。
在一個實施例中,該聚類後的分類包括對預定數量的大數據進行聚類處理後得到的分類。
在一個實施例中,該該聚類後的分類可以包括:結合最近一次消費、消費頻率和消費金額這三項指標對預定數量的大數據進行聚類處理後得到的分類。
運用大數據模擬實境,發掘新的需求和提高投入的回報率。大數據分析技術使得商家可以在成本效率較高的情況下,實時地把這些數據連同交易行為的數據進行儲存和分析大數據技術可以把這些數據整合起來進行數據挖掘,從而在某些情況下透過模型模擬來判斷不同變量的情況下何種方案投入回報最高。
數據倉庫本身是一個非常大的數據庫,它儲存著由組織作業數據庫中整合而來的數據,特別是指事務處理系統OLTP(On-Line Transactional Processing)所得來的數據。將這些整合過的數據置放於數據倉庫中,而公司的決 策者則利用這些數據作決策;但是,這個轉換及整合數據的過程,是建立一個數據倉庫最大的挑戰。因為將作業中的數據轉換成有用的的策略性信息是整個數據倉庫的重點。綜上所述,數據倉庫應該具有這些數據:整合性數據(integrated data)、詳細和匯總性的數據(detailed and summarized data)、歷史數據、解釋數據的數據。從數據倉庫挖掘出對決策有用的信息與知識,是建立數據倉庫與使用Data Mining的最大目的,兩者的本質與過程是不同的。換句話說,數據倉庫應先行建立完成,Data mining才能有效率的進行,因為數據倉庫本身所含數據是乾淨(不會有錯誤的數據參雜其中)、完備,且經過整合的。因此兩者關係或許可解讀為Data Mining是從巨大數據倉庫中找出有用信息的一種過程與技術。大部分情況下,數據挖掘都要先把數據從數據倉庫中拿到數據挖掘庫或數據集市中要將龐大的數據轉換成為有用的信息,必須先有效率地收集信息。隨著科技的進步,功能完善的數據庫系統就成了最好的收集數據的工具。數據倉庫,簡單地說,就是搜集來自其它系統的有用數據,存放在一整合的儲存區內。所以其實就是一個經過處理整合,且容量特別大的關係型數據庫,用以儲存決策支持系統(Decision Support System)所需的數據,供決策支持或數據分析使用。從信息技術的角度來看,數據倉庫的目標是在組織中,在正確的時間,將正確的數據交給正確的人。把數據看作是形成知識的源泉,好像從礦石中採礦或淘金一樣。原始數據可 以是結構化的,如關係數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分佈在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用於信息管理,查詢優化,決策支持和過程控制等,還可以用於數據自身的維護。因此,數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這種需求牽引下,彙聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、並行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。
數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識.數據挖掘所得到的信息應具有先前未知,有效和可實用三個特徵。先前未知的信息是指該信息是預先未曾預料到的,既數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。
在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極管、電晶體、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾 乎都透過將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模塊來實現。例如,可編程邏輯器件(Programmable Logic Device,PLD)(例如現場可編程門陣列(Field Programmable Gate Array,FPGA))就是這樣一種集成電路,其邏輯功能由用戶對器件編程來確定。由設計人員自行編程來把一個數位系統“集成”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的集成電路晶片。而且,如今,取代手工地製作集成電路晶片,這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程序開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的編程語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog2。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到集成電路中,就可以很容易得到實現該邏輯方法 流程的硬體電路。
控制器可以按任何適當的方式實現,例如,控制器可以採取例如微處理器或處理器以及儲存可由該(微)處理器執行的計算機可讀程序代碼(例如軟體或韌體)的計算機可讀介質、邏輯門、開關、專用集成電路(Application Specific Integrated Circuit,ASIC)、可編程邏輯控制器和嵌入微控制器的形式,控制器的例子包括但不限於以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,儲存器控制器還可以被實現為儲存器的控制邏輯的一部分。
本領域技術人員也知道,除了以純計算機可讀程序代碼方式實現控制器以外,完全可以透過將方法步驟進行邏輯編程來使得控制器以邏輯門、開關、專用集成電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模塊又可以是硬體部件內的結構。
上述實施例闡明的系統、裝置、模塊或單元,具體可以由計算機晶片或實體實現,或者由具有某種功能的產品來實現。
為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本申請時可以把各單元的功能 在同一個或多個軟體和/或硬體中實現。
透過以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的通用硬體平台的方式來實現。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品可以儲存在儲存介質中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一台計算機設備(可以是個人計算機,伺服器,或者網路設備等)執行本申請各個實施例或者實施例的某些部分所述的方法。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於系統實施例而言,由於其基本相似於方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本申請可用於眾多通用或專用的計算機系統環境或配置中。例如:個人計算機、伺服器計算機、手持設備或便攜式設備、平板型設備、多處理器系統、基於微處理器的系統、置頂盒、可編程的消費電子設備、網絡PC、小型計算機、大型計算機、包括以上任何系統或設備的分佈式計算環境等等。
本申請可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執行特定任務或實現特定抽象數據類型的例程、程序、對 象、組件、資料結構等等。也可以在分佈式計算環境中實踐本申請,在這些分佈式計算環境中,由透過通信網絡而被連接的遠程處理設備來執行任務。在分佈式計算環境中,程序模塊可以位於包括儲存設備在內的本地和遠程計算機儲存介質中。
雖然透過實施例描繪了本申請,本領域普通技術人員知道,本申請有許多變形和變化而不脫離本申請的精神,希望所附的申請專利範圍包括這些變形和變化而不脫離本申請的精神。

Claims (12)

  1. 一種大數據處理方法,其特徵在於,包括:接收包含用戶第一數據的請求信息;如果該第一數據大於預定限額,查詢該用戶的歷史數據;基於該歷史數據在聚類後的分類中查找對應分類;將查找到的對應分類按照預定映射規則得到動態額度;及如果該第一數據不大於預定限額與動態額度之和,則批准該請求信息。
  2. 如申請專利範圍第1項所述的方法,其中,該請求信息含訂單信息,該第一數據包括訂單信息中的待支付金額。
  3. 如申請專利範圍第2項所述的方法,其中,該訂單信息包括單一場景下的訂單信息,該預定限額包括單一場景下的預定限額;或,該訂單信息包括不同場景下的訂單信息,該預定限額包括不同場景下的預定限額。
  4. 如申請專利範圍第1或3項所述的方法,其中,該預定限額透過以下方式得到:將用戶的歷史訂單中的訂單金額排序;將符合下式的d i判斷為離群點:|d i -d i-k |>C,i=k+1,…,n 上式中,i表示第i筆訂單,d 1,d 2,…,d n 是按照訂單金額排序後的訂單金額,C為給定的閾值,k為預設距離;剔除離群點;將剔除離群點後的群落中的最大值設為預定限額。
  5. 如申請專利範圍第1項所述的方法,其中,該聚類後的分類包括對預定數量的大數據進行聚類處理後得到的分類。
  6. 如申請專利範圍第5項所述的方法,其中,該對預定數量的大數據進行聚類處理包括:結合最近一次消費、消費頻率和消費金額這三項指標對預定數量的大數據進行聚類處理。
  7. 一種大數據處理平台,其特徵在於,包括:接收單元,用於接收包含用戶第一數據的請求信息;查詢單元,用於當該第一數據大於預定限額時,查詢該用戶的歷史數據;查找單元,基於該歷史數據在聚類後的分類中查找對應分類;映射單元,用於將查找到的對應分類按照預定映射規則得到動態額度;及審核單元,用於當該第一數據不大於預定限額與動態額度之和時,批准該請求信息。
  8. 如申請專利範圍第7項所述的大數據處理平台,其中,該請求信息含訂單信息,該第一數據包括訂單信息中的待支付金額。
  9. 如申請專利範圍第7項所述的大數據處理平台,其中,該訂單信息包括單一場景下的訂單信息,該預定限額包括單一場景下的預定限額;或,該訂單信息包括不同場景下的訂單信息,該預定限額包括不同場景下的預定限額。
  10. 如申請專利範圍第7或9項所述的大數據處理平台,其中,還包括預定限額計算單元,該預定限額計算單元包括:排序單元,用於將用戶的歷史訂單中的訂單金額排序;判斷單元,用於將符合下式的d i判斷為離群點:|d i -d i-k |>C,i=k+1,…,n上式中,i表示第i筆訂單,d 1,d 2,…,d n 是按照訂單金額排序後的訂單金額,C為給定的閾值,k為預設距離;剔除單元,用於剔除離群點;設置單元,用於將剔除離群點後的群落中的最大值設為預定限額。
  11. 如申請專利範圍第7項所述的大數據處理平台,其中,該聚類後的分類包括對預定數量的大數據進行聚類處理後得到的分類。
  12. 如申請專利範圍第11項所述的大數據處理平台,其中,該該聚類後的分類包括: 結合最近一次消費、消費頻率和消費金額這三項指標對預定數量的大數據進行聚類處理後得到的分類。
TW103118591A 2014-03-25 2014-05-28 大數據處理方法及平台 TWI650653B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??201410113875.2 2014-03-25
CN201410113875.2A CN104951446A (zh) 2014-03-25 2014-03-25 大数据处理方法及平台

Publications (2)

Publication Number Publication Date
TW201537366A true TW201537366A (zh) 2015-10-01
TWI650653B TWI650653B (zh) 2019-02-11

Family

ID=54166109

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103118591A TWI650653B (zh) 2014-03-25 2014-05-28 大數據處理方法及平台

Country Status (7)

Country Link
US (1) US10504120B2 (zh)
JP (1) JP6425735B2 (zh)
KR (1) KR101939554B1 (zh)
CN (1) CN104951446A (zh)
HK (1) HK1211095A1 (zh)
TW (1) TWI650653B (zh)
WO (1) WO2015148159A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI599981B (zh) * 2016-10-19 2017-09-21 Chunghwa Telecom Co Ltd Computer program and method applied to big data music playing in smart building
TWI611309B (zh) * 2016-12-16 2018-01-11 大數據資料庫系統
TWI649708B (zh) * 2017-04-25 2019-02-01 福皓整合科技有限公司 客戶價值之預測方法
US11106804B2 (en) 2017-08-02 2021-08-31 Advanced New Technologies Co., Ltd. Model training method and apparatus based on data sharing

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10248530B2 (en) * 2015-07-09 2019-04-02 Comcast Cable Communications, Llc Methods and systems for determining capacity
US10084738B2 (en) 2015-10-23 2018-09-25 Paypal, Inc. Emoji commanded action
CN106920140A (zh) * 2015-12-25 2017-07-04 北京奇虎科技有限公司 历史订单处理方法及装置
CN107346312A (zh) * 2016-05-05 2017-11-14 中国移动通信集团内蒙古有限公司 一种大数据处理方法及系统
CN106327197A (zh) * 2016-08-24 2017-01-11 努比亚技术有限公司 支付装置、终端及支付方法
CN107808346B (zh) * 2016-09-08 2021-08-24 腾讯科技(深圳)有限公司 一种潜在目标对象的评估方法及评估装置
CN106503438A (zh) * 2016-10-20 2017-03-15 上海科瓴医疗科技有限公司 一种用于药店会员分析的h‑rfm用户建模方法及系统
CN106845706A (zh) * 2017-01-19 2017-06-13 浙江工商大学 在线社交网络用户关系强度预测方法
US20190213623A1 (en) * 2018-01-11 2019-07-11 Affinity Solutions, Inc. System for predicting future purchase using sequence pattern mining of credit/debit data
US20190220841A1 (en) * 2018-01-12 2019-07-18 Wells Fargo Bank, N.A. Dynamic micropayment fee selector
CN108446849A (zh) * 2018-03-21 2018-08-24 携程旅游网络技术(上海)有限公司 信用额度的评估方法及其系统、存储介质、电子设备
CN108921385A (zh) * 2018-06-07 2018-11-30 中国联合网络通信集团有限公司 基于自然人的维系方法及系统
CN109102387B (zh) * 2018-06-28 2020-10-02 招联消费金融有限公司 一种额度调整方法、服务器及计算机可读介质
CN109146474A (zh) * 2018-07-18 2019-01-04 阿里巴巴集团控股有限公司 一种支付限额定制方法及装置
CN110968368B (zh) * 2018-09-30 2022-05-13 武汉斗鱼网络科技有限公司 一种直播数据的处理方法及其相关设备
US11176556B2 (en) * 2018-11-13 2021-11-16 Visa International Service Association Techniques for utilizing a predictive model to cache processing data
CN109615385A (zh) * 2018-11-19 2019-04-12 中国银行股份有限公司 刷脸交易的限额控制方法、装置及存储介质
SE1830356A1 (en) 2018-12-07 2020-06-08 Omnicorn Ab Purchase Management System And Method
US20200265440A1 (en) * 2019-02-19 2020-08-20 International Business Machines Corporation Transaction validation for plural account owners
CN111145008A (zh) * 2019-12-04 2020-05-12 支付宝(杭州)信息技术有限公司 一种账户限额配置方法及装置
US11574327B2 (en) * 2019-12-18 2023-02-07 Visa International Service Association Method, system, and computer program product for determining customer migration
WO2021163232A1 (en) * 2020-02-10 2021-08-19 Sweet Lawrence Mark System and method for implementing a payment architecture that provides instant, risk-free payment in digital cash
CN111597249A (zh) * 2020-04-24 2020-08-28 深圳市商汤科技有限公司 数据显示方法和相关装置
US11044198B1 (en) 2020-08-05 2021-06-22 Coupang Corp. Systems and methods for pooling multiple user requests to mitigate network congestion
CN112949907B (zh) * 2021-02-04 2024-03-19 品茗科技股份有限公司 一种工程造价的定额匹配方法、装置、设备及存储介质
CN113034179A (zh) * 2021-03-15 2021-06-25 广州虎牙科技有限公司 用户的分类方法以及相关装置、设备
CN114331667B (zh) * 2021-12-02 2023-02-10 上海金仕达软件科技有限公司 一种防止银行贵金属超买超卖的方法及系统
KR102455932B1 (ko) * 2022-01-03 2022-10-19 쿠팡 주식회사 후불 결제 정보 제공을 위한 전자 장치 및 그 방법

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5177342A (en) * 1990-11-09 1993-01-05 Visa International Service Association Transaction approval system
US6119103A (en) * 1997-05-27 2000-09-12 Visa International Service Association Financial risk prediction systems and methods therefor
JP2001306829A (ja) 2000-04-20 2001-11-02 Canon Inc プリントサービスシステム,プリントサービス管理サーバ装置,店舗サービス管理装置,システム使用料金算出方法及びプリントサービス利用料金算出方法
JP2001331749A (ja) 2000-05-23 2001-11-30 Aiful Corp 保証業務システム及びその方法
JP2002049814A (ja) 2000-08-01 2002-02-15 Japan Airlines Co Ltd 与信精算機能を分離した搭乗券発行システム
US7383224B2 (en) 2001-06-29 2008-06-03 Capital One Financial Corporation Systems and methods for processing credit card transactions that exceed a credit limit
JP4084556B2 (ja) 2001-10-19 2008-04-30 株式会社エヌ・ティ・ティ・ドコモ 料金代行徴収システム、代行徴収サーバ、移動端末及び料金代行徴収方法
US20030208439A1 (en) * 2002-05-03 2003-11-06 Rast Rodger H. Automated soft limit control of electronic transaction accounts
CN1510598A (zh) * 2002-12-21 2004-07-07 鸿富锦精密工业(深圳)有限公司 应收账款客户信用额度管理方法
JP2004213452A (ja) 2003-01-07 2004-07-29 Matsushita Electric Ind Co Ltd 情報処理システム、サーバ装置および記録媒体
KR20050091203A (ko) 2004-03-11 2005-09-15 (주)더한커뮤니티 후불결제 처리방법
US7143936B2 (en) * 2005-02-09 2006-12-05 American Express Travel Related Services Company, Inc. System and method for calculating expected approval rates
TW200638280A (en) * 2005-04-20 2006-11-01 Chia-Chia Wang Related commodities of communication system and sales method hereof
US8521542B1 (en) * 2007-05-24 2013-08-27 United Services Automobile Association (Usaa) Systems and methods for classifying account data using artificial neural networks
US20090307049A1 (en) * 2008-06-05 2009-12-10 Fair Isaac Corporation Soft Co-Clustering of Data
US8799161B2 (en) 2010-05-20 2014-08-05 Bank Of America Corporation Automatically decisioning transaction requests
CN102034181A (zh) * 2010-11-09 2011-04-27 深圳市爱贝信息技术有限公司 基于用户交易频度检测的交易安全控制方法及装置
US20140032395A1 (en) 2011-04-07 2014-01-30 Infosys Limited System and method for granting a temporary overdraft automatically
US20120265681A1 (en) * 2011-04-15 2012-10-18 Bank Of America Corporation Dynamic credit limit increase
KR20110092261A (ko) 2011-08-01 2011-08-17 주식회사 비즈모델라인 결제한도 조정 방법
CN103136858B (zh) 2012-12-20 2014-12-17 天地融科技股份有限公司 智能卡及智能卡交易控制方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI599981B (zh) * 2016-10-19 2017-09-21 Chunghwa Telecom Co Ltd Computer program and method applied to big data music playing in smart building
TWI611309B (zh) * 2016-12-16 2018-01-11 大數據資料庫系統
TWI649708B (zh) * 2017-04-25 2019-02-01 福皓整合科技有限公司 客戶價值之預測方法
US11106804B2 (en) 2017-08-02 2021-08-31 Advanced New Technologies Co., Ltd. Model training method and apparatus based on data sharing
US11106802B2 (en) 2017-08-02 2021-08-31 Advanced New Technologies Co., Ltd. Model training method and apparatus based on data sharing

Also Published As

Publication number Publication date
HK1211095A1 (zh) 2016-05-13
WO2015148159A1 (en) 2015-10-01
JP6425735B2 (ja) 2018-11-21
JP2017515184A (ja) 2017-06-08
US20150278813A1 (en) 2015-10-01
KR101939554B1 (ko) 2019-01-17
US10504120B2 (en) 2019-12-10
TWI650653B (zh) 2019-02-11
CN104951446A (zh) 2015-09-30
KR20160121806A (ko) 2016-10-20

Similar Documents

Publication Publication Date Title
TWI650653B (zh) 大數據處理方法及平台
Javed Awan et al. Social media and stock market prediction: a big data approach
US11100435B2 (en) Machine learning artificial intelligence system for predicting hours of operation
WO2020249125A1 (zh) 用于自动训练机器学习模型的方法和系统
US11682093B2 (en) Document term recognition and analytics
Elgendy et al. Big data analytics: a literature review paper
US11823072B2 (en) Customer behavior predictive modeling
US8533235B2 (en) Infrastructure and architecture for development and execution of predictive models
CN108133418A (zh) 实时信用风险管理系统
Xu et al. Novel model of e-commerce marketing based on big data analysis and processing
Ahmed et al. Agent-based big data analytics in retailing: a case study
CN115827994A (zh) 一种数据处理方法、装置、设备、存储介质
Madaan et al. Big data analytics: A literature review paper
Guo et al. EC‐Structure: Establishing Consumption Structure through Mining E‐Commerce Data to Discover Consumption Upgrade
Schmidt et al. Enterprise architecture analytics and decision support
Hou Decision tree algorithm for big data analysis
Sadeek et al. Assessment of text-generated supply chain risks considering news and social media during disruptive events
Kart et al. Decision support system for a customer relationship management case study
Akerkar et al. Analytics and big data
Nalabala et al. An Amalgamation of Big Data Analytics with Tweet Feeds for Stock Market Trend Anticipating Systems: A Review
Fong et al. Enabling Real-Time Business Intelligence by Stream Mining
Guan Neural Network Model of Dynamic Prediction of Cross-Border E-Commerce Sales for Virtual Community Knowledge Sharing
Karmostaje Buyer Prediction Through Machine Learning
Kumar et al. Basics of analytics and big data
Liu Statistics in the Age of Big Data: Opportunities and Challenges