TWI772673B - 行業識別模型確定方法和裝置 - Google Patents

行業識別模型確定方法和裝置 Download PDF

Info

Publication number
TWI772673B
TWI772673B TW108130391A TW108130391A TWI772673B TW I772673 B TWI772673 B TW I772673B TW 108130391 A TW108130391 A TW 108130391A TW 108130391 A TW108130391 A TW 108130391A TW I772673 B TWI772673 B TW I772673B
Authority
TW
Taiwan
Prior art keywords
industry
transaction
user
business
sample
Prior art date
Application number
TW108130391A
Other languages
English (en)
Other versions
TW202026992A (zh
Inventor
王立
Original Assignee
開曼群島商創新先進技術有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 開曼群島商創新先進技術有限公司 filed Critical 開曼群島商創新先進技術有限公司
Publication of TW202026992A publication Critical patent/TW202026992A/zh
Application granted granted Critical
Publication of TWI772673B publication Critical patent/TWI772673B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/42Confirmation, e.g. check or permission by the legal debtor of payment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4014Identity check for transactions

Abstract

本發明提供一種行業識別模型確定方法和裝置。先獲取已確定行業類型的樣本商業用戶,藉由預定義的資料提取策略從所述交易資訊集合中提取出描述樣本商業用戶所在行業的營業形態的行業特徵資料,藉由行業特徵資料訓練用於識別商業用戶行業的識別模型。進而可利用識別模型藉由識別行業特徵確定商業用戶的所在行業,和先前技術匯總基於詞庫的篩選策略相比,虛假行業類型商業用戶難以規避對於本發明對於行業特徵的識別。

Description

行業識別模型確定方法和裝置
本說明書涉及網際網路技術領域,尤其涉及一種行業識別模型確定方法和裝置。
隨著電子支付的發展,很多商業用戶選擇連結支付平臺,交易時買家可藉由掃碼等方式進行電子支付。而對於不同行業的商家,支付平臺可能會採用不同的連結規則。舉例說明:商業用戶是支付寶會員體系中重要的一部分,為了支持餐飲商業用戶和支付寶的合作,支付寶規定,所有餐飲商業用戶連結支付寶收銀即可享受支付寶收款零費率。而與此同時,很多非餐飲商家為了利益,可能會偽造商業用戶大頭照、商業用戶名稱等申請參與零費率活動。針對這類風險,雖然已經有人工客服的檢查,還是會漏過一批非餐飲商業用戶。為了避免不符合條件的商業用戶偽造資訊。需要一種商業用戶行業識別方法。
先前技術中,對於商業用戶的行業識別只有基於關鍵詞的識別策略,即維護不同行業對應的相關詞庫,對提交審核商業用戶的商業用戶名稱,商品名稱進行檢查,但是這種方法比較容易被對方規避,同時還需要定期的對詞庫 進行擴充。
針對上述技術問題,本說明書實施例提供一種行業識別模型確定方法和裝置,技術方案如下:根據本說明書實施例的第一方面,提供一種行業識別模型確定方法,該方法包括:獲取至少一個已確定行業類型的樣本商業用戶;獲取預設時間段內,包含樣本商業用戶每筆交易資訊的交易資訊集合;藉由預定義的資料提取策略從所述交易資訊集合中提取出樣本商業用戶的行業特徵資料,所述行業特徵資料藉由樣本商業用戶在不同時間點的交易資訊描述樣本商業用戶所在行業在不同時間點的營業形態;將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型。
根據本說明書實施例的第二方面,提供一種基於行業識別模型的商業用戶行業確定方法,該方法包括:獲取預設時間段內,包含待檢驗商業用戶每筆交易資訊的交易資訊集合;藉由預定義的資料提取策略從所述交易資訊集合中提取出待檢驗商業用戶的行業特徵資料;將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的所在行業。
根據本說明書實施例的第三方面,提供一種行業識別模型確定裝置,該裝置包括:樣本確定模組:用於獲取至少一個已確定行業類型的樣本商業用戶;資訊獲取模組:用於獲取預設時間段內,包含樣本商業用戶每筆交易資訊的交易資訊集合;資料提取模組:用於藉由預定義的資料提取策略從所述交易資訊集合中提取出樣本商業用戶的行業特徵資料,所述行業特徵資料藉由樣本商業用戶在不同時間點的交易資訊描述樣本商業用戶所在行業在不同時間點的營業形態;模型訓練模組:用於將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型。
根據本說明書實施例的第四方面,提供一種基於行業識別模型的商業用戶行業確定裝置,該裝置包括:資訊獲取模組:用於獲取預設時間段內,包含待檢驗商業用戶每筆交易資訊的交易資訊集合;資料提取模組:用於藉由預定義的資料提取策略從所述交易資訊集合中提取出待檢驗商業用戶的行業特徵資料;行業識別模組:用於將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的所在行業。
根據本說明書實施例的第五方面,提供一種電腦設 備,包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的電腦程式,其中,所述處理器執行所述程式時實現一種行業識別模型確定方法,該方法包括:獲取至少一個已確定行業類型的樣本商業用戶;獲取預設時間段內,包含樣本商業用戶每筆交易資訊的交易資訊集合;藉由預定義的資料提取策略從所述交易資訊集合中提取出樣本商業用戶的行業特徵資料,所述行業特徵資料藉由樣本商業用戶在不同時間點的交易資訊描述樣本商業用戶所在行業在不同時間點的營業形態;將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型。
根據本說明書實施例的第六方面,提供一種電腦設備,包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的電腦程式,其中,所述處理器執行所述程式時實現一種基於行業識別模型的商業用戶行業確定方法,該方法包括:獲取預設時間段內,包含待檢驗商業用戶每筆交易資訊的交易資訊集合;藉由預定義的資料提取策略從所述交易資訊集合中提取出待檢驗商業用戶的行業特徵資料;將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的所在行業。
本說明書實施例所提供的技術方案,提供了一種行業 識別模型確定方法,先獲取已確定行業類型的樣本商業用戶,藉由預定義的資料提取策略從所述交易資訊集合中提取出描述樣本商業用戶所在行業的營業形態的行業特徵資料,藉由行業特徵資料訓練用於識別商業用戶行業的識別模型。進而可利用識別模型藉由識別行業特徵確定商業用戶的所在行業,和先前技術匯總基於詞庫的篩選策略相比,虛假行業類型商業用戶難以規避對於本發明對於行業特徵的識別。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性和解釋性的,並不能限制本說明書實施例。
此外,本說明書實施例中的任一實施例並不需要達到上述的全部效果。
S101~S104:步驟
S301~S303:步驟
S401~S403:步驟
710:樣本確定模組
720:資訊獲取模組
730:資料提取模組
740:模型訓練模組
810:資訊獲取模組
820:資料提取模組
830:行業識別模組
1110:處理器
1120:儲存器
1130:輸入/輸出介面
1140:通信介面
1150:匯流排
為了更清楚地說明本說明書實施例或先前技術中的技術方案,下面將對實施例或先前技術描述中所需要使用的圖式作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本說明書實施例中記載的一些實施例,對於本領域具有通常知識者來講,還可以根據這些圖式獲得其他的圖式。
圖1是本說明書一示例性實施例示出的行業識別模型確定方法的一種示意圖;圖2是本說明書一示例性實施例示出的交易資料的一種示意圖;圖3是本說明書一示例性實施例示出的基於行業識別 模型的商業用戶行業識別方法的一種流程圖;圖4是本說明書一示例性實施例示出的餐飲行業識別模型的確定方法的一種流程圖;圖5是本說明書一示例性實施例示出的一種交易資料的資金熱力示意圖;圖6是本說明書一示例性實施例示出的模型網路構成示意圖;圖7是本說明書一示例性實施例示出的行業識別模型確定裝置的一種示意圖;圖8是本說明書一示例性實施例示出的基於行業識別模型的商業用戶行業識別裝置的一種示意圖;圖9是本說明書一示例性實施例示出的一種電腦設備的結構示意圖。
這裡將詳細地對示例性實施例進行說明,其示例表示在圖式中。下面的描述涉及圖式時,除非另有表示,不同圖式中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式並不代表與本說明書相一致的所有實施方式。相反,它們僅是與如所附申請專利範圍中所詳述的、本說明書的一些方面相一致的裝置和方法的例子。
在本說明書使用的術語是僅僅出於描述特定實施例的目的,而非旨在限制本說明書。在本說明書和所附申請專 利範圍中所使用的單數形式的“一種”、“所述”和“該”也旨在包括多數形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術語“和/或”是指並包含一個或多個相關聯的列出項目的任何或所有可能組合。
應當理解,儘管在本說明書可能採用術語第一、第二、第三等來描述各種資訊,但這些資訊不應限於這些術語。這些術語僅用來將同一類型的資訊彼此區分開。例如,在不脫離本說明書範圍的情況下,第一資訊也可以被稱為第二資訊,類似地,第二資訊也可以被稱為第一資訊。取決於語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“響應於確定”。
隨著電子支付的發展,很多商業用戶選擇連結支付平臺,交易時買家可藉由掃碼等方式進行電子支付。而對於不同行業的商家,支付平臺可能會採用不同的連結規則。舉例說明:商業用戶是支付寶會員體系中重要的一部分,為了支持餐飲商業用戶和支付寶的合作,支付寶規定,所有餐飲商業用戶連結支付寶收銀即可享受支付寶收款零費率。而與此同時,很多非餐飲商家為了利益,可能會偽造商業用戶大頭照、商業用戶名稱等申請參與零費率活動。針對這類風險,雖然已經有人工客服的檢查,還是會漏過一批非餐飲商業用戶。為了避免不符合條件的商業用戶偽造資訊。需要一種商業用戶行業識別方法。
先前技術中,對於商業用戶的行業識別只有基於關鍵 詞的識別策略,即維護不同行業對應的相關詞庫,對提交審核商業用戶的商業用戶名稱,商品名稱進行檢查,但是這種方法比較容易被對方規避,同時還需要定期的對詞庫進行擴充。
針對以上問題,本說明書實施例提供一種行業識別模型確定方法,以及一種用於執行該方法的行業識別模型確定裝置。藉由訓練能夠進行行業識別的模型來判斷商業用戶的行業。
下面對本實施例涉及的行業識別模型確定方法進行詳細說明,參見圖1所示,該方法可以包括以下步驟:S101,獲取至少一個已確定行業類型的樣本商業用戶;獲取已確定行業類型的樣本商業用戶的方式有多種方式,可以根據應用場景自行設定。舉例說明:若應用場景為支付寶電子支付平臺連結的商業用戶,商業用戶行業類型為餐飲行業,則可從支付寶平臺各個行業的口碑商業用戶中獲取對應類型的樣本商業用戶。
進一步地,可設定一種需要讓模型重點識別的目標行業類型,如餐飲行業類型,則在獲取樣本商業用戶時,可採集比例較高的行業類型為餐飲行業的商業用戶作為正樣本,採集比例較低的行業類型為非餐飲行業的商業用戶作為負樣本。以重點訓練模型識別商業用戶是否為餐飲行業的能力。
S102,獲取預設時間段內,包含樣本商業用戶每筆交 易資訊的交易資訊集合;S103,藉由預定義的資料提取策略從所述交易資訊集合中提取出樣本商業用戶的行業特徵資料,所述行業特徵資料藉由樣本商業用戶在不同時間點的交易資訊描述樣本商業用戶所在行業在不同時間點的營業形態;其中,資料提取策略需要預先根據行業類型進行規定,不同的行業類型對應著不同的資料提取策略。藉由將樣本商業用戶的交易資訊進行整合提取,獲取不同行業對應的不同形式的行業特徵資料。
其中,行業特徵資料可包括樣本商業用戶在預定時間段內,每個單位時間的至少一種類別的交易資訊。參見圖2,為其中一種提取出的行業特徵資料的示意圖,即獲取不同商業用戶單日內每個小時段的其中一種交易資料(如營業額資料),將提取結果作為營業特徵資料。
舉例說明,可為某一類型行業設定5種類別的交易資料作為營業特徵資料,這5種類別的交易資料分別為該樣本商業用戶單個小時內收款的總金額、單個小時的交易次數、單個小時均筆交易金額、單個小時交易金額變異數以及單個小時的交易人數,這五種類別的資料用於刻劃餐飲商業用戶的營業形態。當行業類型為餐飲行業時,藉由上述行業類型資料可以看出,大部分的餐飲商業用戶交易集中在早上晚三餐,且交易金額都比較少。提取上述交易資料作為行業特徵資料能夠看出餐飲行業的營業形態。
進一步地,藉由預定義的資料提取策略從所述交易資 訊集合中提取出樣本商業用戶的行業特徵資料後,還可將同一樣本商業用戶任一類別的交易資訊表達為交易圖像,所述交易圖像的橫坐標用於表示交易的發生日期,所述交易圖像的縱坐標用於表示每個發生日期內的不同發生時間點,所述交易圖像中像素點的顏色用於表示所述類別的交易資訊的數值大小。
S104,將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型。
具體地,將樣本商業用戶的已確定的行業類型和對應的行業特徵資料作為一組訓練資料,訓練用於識別商業用戶行業的識別模型。
如上文所述,將同一樣本商業用戶任一類別的交易資訊表達為交易圖像後,還可將表達同一樣本商業用戶不同類型交易特徵的交易圖像資料作為CNN神經網路不同通道的輸入資料,訓練用於識別商業用戶行業的識別模型。
其中,行業識別模型的訓練方式具體過程可為:將表達不同類型交易特徵的交易圖像資料分別處理為對應的一維向量序列;將所述不同一維向量序列分別進行資料標準化處理,並將資料標準化處理後的不同一維向量序列整合重構為一個三維向量序列;將所述三維向量序列作為不同通道的輸入資料,輸入CNN神經網路的卷積池化層,將反覆卷積池化後的輸出結果作為特徵向量; 將特徵向量展開為一維向量輸入CNN神經網路全連接層,以完成行業識別模型對於所述樣本商業用戶的行業特徵的學習。
基於上述訓練出的行業識別模型,可進一步針對未知類型的商業用戶進行行業識別方法,參見圖3,包括以下步驟:S301,獲取預設時間段內,包含待檢驗商業用戶每筆交易資訊的交易資訊集合;具體實施方式參照步驟S102;S302,藉由預定義的資料提取策略從所述交易資訊集合中提取出待檢驗商業用戶的行業特徵資料;具體實施方式參照步驟S103;S303,將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的所在行業。
具體地,獲取未知行業類型的商業用戶的行業特徵資料,將該行業特徵資料輸入已針對特定行業類型訓練完成的行業識別模型,進而可判斷出該未知商業用戶是否屬於該特定行業類型。
針對不同類型的商業用戶行業,均可根據該行業的行業特徵訓練對應的行業識別模型,下面以餐飲行業類型舉例,進行更具體的模型訓練方法介紹,參考圖4,包括如下步驟:S401,獲取至少一個餐飲行業的樣本商業用戶;S402,將每個樣本商業用戶預定天數內,每小時內預定類型的交易資料合併成為天數*24*類型數量的交易圖 像;具體地,將每個樣本商業用戶最近七天,每小時的5種交易資料合併成為7*24*5的資金熱力圖。
其中,這5種類別的交易資料分別為該樣本商業用戶單個小時內收款的總金額、單個小時的交易次數、單個小時均筆交易金額、單個小時交易金額變異數以及單個小時的交易人數,這五種類別的資料用於刻劃餐飲商業用戶的營業形態。
將上述交易轉化為交易圖像資料,參見圖5,為六個餐飲商業用戶7天內交易金額特徵對應的熱力圖,其中橫縱坐標為交易發生的日期和具體的時間節點,圖像中像素點的顏色深淺代表了交易金額的數值,具體對應情況見右側的色條。
可以看出,大部分的餐飲商業用戶交易集中在早上晚三餐,且交易金額都比較少。此即為餐飲商業用戶的營業形態。
需要注意,7天和24小時都是其中一種可以選擇的時間劃分方式,具體實施時可根據實際情況選擇其他的時間劃分方式。收款的總金額、交易次數、均筆交易金額、交易金額變異數以及交易人數這5種類別的交易資料也可以根據實際情況增加,減少或變動為其他類型的資料。上述時間劃分和類型選擇方式均不對本實施例造成限制。
S403,將5種不同資金熱力圖資料作為五個通道的輸入資料,訓練用於識別商業用戶行業的識別模型。
具體地,該訓練模型可仿照VGG-Net網路結構,採用[卷積-啟動-池化]*3-Dropout-全連接-Dropout-分類的結構。
其中,在本實施例中,資料流的整體流程如下:
a)將餐飲商業用戶七天內每小時內收款的總金額、每小時內的交易次數、每小時內均筆交易金額、每小時內交易金額變異數以及每小時的內的交易人數作為模型的五個通道輸入,五條序列都為7*24長的一維向量。
b)將五條序列資訊處理成[-1,1]區間內數值,並重構成為7*24*5的三維向量。其中,金額序列中大於1000的金額設置為1000,然後將(金額-500)/1000作為輸入序列。
c)參見圖6,採用CNN神經網路對輸入序列反覆卷積池化,得到包括5種交易資料類型的資金序列特徵向量。
d)將資金序列特徵向量展開成為一維向量輸入全連接神經網路進行分類訓練。
藉由上述流程訓練出針對餐飲行業的識別模型後,在後續應用階段,仍使用上述a,b步驟清洗出3維交易資料,將清洗出的資料輸入訓練好的模型產出評價分數,並將評價分數不符合標準的高危險商業用戶返回人工客服進行複審。
可以看出,該基於交易熱力圖的深度神經網路行業識別模型,可以對符合餐飲交易形態的商業用戶進行檢查,即選擇出交易集中在早中晚三餐、交易金額較小的商業用 戶。和基於詞庫的商業用戶名稱篩選策略相比,虛假餐飲商業用戶難移規避策略,同時模型效果不會隨著時間衰退,不用定期重訓模型。
相應於上述方法實施例,本說明書實施例還提供一種行業識別模型確定方法裝置,參見圖7所示,所述裝置可以包括:樣本確定模組710,資訊獲取模組720,資料提取模組730和模型訓練模組740。
樣本確定模組710:用於獲取至少一個已確定行業類型的樣本商業用戶;資訊獲取模組720:用於獲取預設時間段內,包含樣本商業用戶每筆交易資訊的交易資訊集合;資料提取模組730:用於藉由預定義的資料提取策略從所述交易資訊集合中提取出樣本商業用戶的行業特徵資料,所述行業特徵資料藉由樣本商業用戶在不同時間點的交易資訊描述樣本商業用戶所在行業在不同時間點的營業形態;模型訓練模組740:用於將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型。
相應於上述方法實施例,本說明書實施例還提供一種基於請求項10行業識別模型的商業用戶行業確定裝置,參見圖8所示,所述裝置包括:資訊獲取模組810,資料提取模組820和行業識別模組830。
資訊獲取模組810:用於獲取預設時間段內,包含待 檢驗商業用戶每筆交易資訊的交易資訊集合;資料提取模組820:用於藉由預定義的資料提取策略從所述交易資訊集合中提取出待檢驗商業用戶的行業特徵資料;行業識別模組830:用於將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的所在行業。
本說明書實施例還提供一種電腦設備,其至少包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的電腦程式,其中,處理器執行所述程式時實現前述行業識別模型確定方法,所述方法至少包括:獲取至少一個已確定行業類型的樣本商業用戶;獲取預設時間段內,包含樣本商業用戶每筆交易資訊的交易資訊集合;藉由預定義的資料提取策略從所述交易資訊集合中提取出樣本商業用戶的行業特徵資料,所述行業特徵資料藉由樣本商業用戶在不同時間點的交易資訊描述樣本商業用戶所在行業在不同時間點的營業形態;將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型。
本說明書實施例還提供一種電腦設備,其至少包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的電腦程式,其中,處理器執行所述程式時實現一種基於前述行業識別模型的商業用戶行業確定方法,所述方法包括: 獲取預設時間段內,包含待檢驗商業用戶每筆交易資訊的交易資訊集合;藉由預定義的資料提取策略從所述交易資訊集合中提取出待檢驗商業用戶的行業特徵資料;將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的所在行業。
圖9示出了本說明書實施例所提供的一種更為具體的計算設備硬體結構示意圖,該設備可以包括:處理器1110、儲存器1120、輸入/輸出介面1130、通信介面1140和匯流排1150。其中處理器1110、儲存器1120、輸入/輸出介面1130和通信介面1140藉由匯流排1150實現彼此之間在設備內部的通信連接。
處理器1110可以採用通用的CPU(Central Processing Unit,中央處理器)、微處理器、特定應用積體電路(Application Specific Integrated Circuit,ASIC)、或者一個或多個積體電路等方式實現,用於執行相關程式,以實現本說明書實施例所提供的技術方案。
儲存器1120可以採用ROM(Read Only Memory,唯讀記憶體)、RAM(Random Access Memory,隨機存取記憶體)、靜態儲存設備,動態儲存設備等形式實現。儲存器1120可以儲存操作系統和其他應用程式,在藉由軟體或者韌體來實現本說明書實施例所提供的技術方案時,相關的程式碼保存在儲存器1120中,並由處理器1110來調用執行。
輸入/輸出介面1130用於連接輸入/輸出模組,以實現資訊輸入及輸出。輸入輸出/模組可以作為組件配置在設備中(圖中未示出),也可以外接於設備以提供相應功能。其中輸入設備可以包括鍵盤、滑鼠、觸控螢幕、麥克風、各類感測器等,輸出設備可以包括顯示器、揚聲器、振動器、指示燈等。
通信介面1140用於連接通信模組(圖中未示出),以實現本設備與其他設備的通信交互。其中通信模組可以藉由有線方式(例如USB、網路線等)實現通信,也可以藉由無線方式(例如行動網路、WIFI、藍牙等)實現通信。
匯流排1150包括一通路,在設備的各個組件(例如處理器1110、儲存器1120、輸入/輸出介面1130和通信介面1140)之間傳輸資訊。
需要說明的是,儘管上述設備僅示出了處理器1110、儲存器1120、輸入/輸出介面1130、通信介面1140以及匯流排1150,但是在具體實施過程中,該設備還可以包括實現正常運行所必需的其他組件。此外,本領域的技術人員可以理解的是,上述設備中也可以僅包含實現本說明書實施例方案所必需的組件,而不必包含圖中所示的全部組件。
對於裝置實施例而言,由於其基本對應於方法實施例,所以相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作 為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本說明書方案的目的。本領域具有通常知識者在不付出創造性勞動的情況下,即可以理解並實施。
本說明書中的各個實施例均採用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對於裝置實施例而言,由於其基本相似於方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的模組可以是或者也可以不是物理上分開的,在實施本說明書實施例方案時可以把各模組的功能在同一個或多個軟體和/或硬體中實現。也可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。本領域具有通常知識者在不付出創造性勞動的情況下,即可以理解並實施。
以上所述僅是本說明書實施例的具體實施方式;應當指出,對於本技術領域的具有通常知識者來說,在不脫離本說明書實施例原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本說明書實施例的保護範圍。

Claims (20)

  1. 一種行業識別模型確定方法,該方法包括:獲取至少一個已確定行業類型的樣本商業用戶,該行業類型至少包括餐飲行業;獲取預設時間段內,包含樣本商業用戶每筆交易資訊的交易資訊集合;藉由預定義的資料提取策略從該交易資訊集合中提取出樣本商業用戶的行業特徵資料,該行業特徵資料藉由樣本商業用戶在不同時間點的交易資訊描述樣本商業用戶所在行業在不同時間點的營業形態,其中,在獲取樣本商業用戶時,採集行業類型為餐飲行業的商業用戶作為正樣本,且採集行業類型為非餐飲行業的商業用戶作為負樣本,且其中,正樣本的比例大於負樣本;將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型。
  2. 如請求項1所述的方法,該樣本商業用戶的行業特徵資料,包括樣本商業用戶在預定時間段內,每個單位時間的至少一種類別的交易資訊。
  3. 如請求項2所述的方法,該預定時間段內,每個單位時間內至少一種類別的交易資訊,包括:在預定時間段內,每個單位時間的收款總金額資訊、交易次數資訊、均 筆交易金額資訊、交易金額變異數資訊和交易人數資訊。
  4. 如請求項1所述的方法,該藉由預定義的資料提取策略從該交易資訊集合中提取出樣本商業用戶的行業特徵資料後,還包括:將同一樣本商業用戶任一類別的交易資訊表達為交易圖像,該交易圖像的橫坐標用於表示交易的發生日期,該交易圖像的縱坐標用於表示每個發生日期內的不同發生時間點,該交易圖像中像素點的顏色用於表示該類別的交易資訊的數值大小。
  5. 如請求項4所述的方法,該將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型,包括:將表達同一樣本商業用戶不同類型交易特徵的交易圖像資料作為CNN神經網路不同通道的輸入資料,訓練用於識別商業用戶行業的識別模型。
  6. 如請求項4所述的方法,該行業識別模型的訓練方式,包括:將表達不同類型交易特徵的交易圖像資料分別處理為對應的一維向量序列;將該不同一維向量序列分別進行資料標準化處理,並將資料標準化處理後的不同一維向量序列整合重構為一個 三維向量序列;將該三維向量序列作為不同通道的輸入資料,輸入CNN神經網路的卷積池化層,將反覆卷積池化後的輸出結果作為特徵向量;將特徵向量展開為一維向量輸入CNN神經網路全連接層,以完成行業識別模型對於該樣本商業用戶的行業特徵的學習。
  7. 如請求項1所述的方法,該已確定行業類型的樣本商業用戶為已確定為餐飲行業的樣本商業用戶,該樣本商業用戶的營業形態為,樣本商業用戶發生交易的時間集中在單日早中晚單位時間內,且交易金額在預設閾值之下。
  8. 一種基於請求項1行業識別模型的商業用戶行業確定方法,該方法包括:獲取預設時間段內,包含待檢驗商業用戶每筆交易資訊的交易資訊集合;藉由預定義的資料提取策略從該交易資訊集合中提取出待檢驗商業用戶的行業特徵資料;將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的所在行業。
  9. 如請求項8所述的方法,該將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業 用戶的所在行業,包括:將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,獲取輸出的評價分數,並將評價分數低於預設閾值的商業用戶確定為問題商業用戶。
  10. 一種行業識別模型確定裝置,該裝置包括:樣本確定模組:用於獲取至少一個已確定行業類型的樣本商業用戶,該行業類型至少包括餐飲行業;資訊獲取模組:用於獲取預設時間段內,包含樣本商業用戶每筆交易資訊的交易資訊集合;資料提取模組:用於藉由預定義的資料提取策略從該交易資訊集合中提取出樣本商業用戶的行業特徵資料,該行業特徵資料藉由樣本商業用戶在不同時間點的交易資訊描述樣本商業用戶所在行業在不同時間點的營業形態,其中,在獲取樣本商業用戶時,採集行業類型為餐飲行業的商業用戶作為正樣本,且採集行業類型為非餐飲行業的商業用戶作為負樣本,且其中,正樣本的比例大於負樣本;模型訓練模組:用於將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型。
  11. 如請求項10所述的裝置,該樣本商業用戶的行業特徵資料,包括樣本商業用戶在預定時間段內,每個單位時間的至少一種類別的交易資訊。
  12. 如請求項11所述的裝置,該預定時間段內,每個單位時間內至少一種類別的交易資訊,包括:在預定時間段內,每個單位時間的收款總金額資訊、交易次數資訊、均筆交易金額資訊、交易金額變異數資訊和交易人數資訊。
  13. 如請求項10所述的裝置,該藉由預定義的資料提取策略從該交易資訊集合中提取出樣本商業用戶的行業特徵資料後,還包括:將同一樣本商業用戶任一類別的交易資訊表達為交易圖像,該交易圖像的橫坐標用於表示交易的發生日期,該交易圖像的縱坐標用於表示每個發生日期內的不同發生時間點,該交易圖像中像素點的顏色用於表示該類別的交易資訊的數值大小。
  14. 如請求項13所述的裝置,該將樣本商業用戶的行業特徵資料作為輸入資料,訓練用於識別商業用戶行業的識別模型,包括:將表達同一樣本商業用戶不同類型交易特徵的交易圖像資料作為CNN神經網路不同通道的輸入資料,訓練用於識別商業用戶行業的識別模型。
  15. 如請求項13所述的裝置,該行業識別模型的訓練方式,包括:將表達不同類型交易特徵的交易圖像資料分別處理為 對應的一維向量序列;將該不同一維向量序列分別進行資料標準化處理,並將資料標準化處理後的不同一維向量序列整合重構為一個三維向量序列;將該三維向量序列作為不同通道的輸入資料,輸入CNN神經網路的卷積池化層,將反覆卷積池化後的輸出結果作為特徵向量;將特徵向量展開為一維向量輸入CNN神經網路全連接層,以完成行業識別模型對於該樣本商業用戶的行業特徵的學習。
  16. 如請求項10所述的裝置,該已確定行業類型的樣本商業用戶為已確定為餐飲行業的樣本商業用戶,該樣本商業用戶的營業形態為,樣本商業用戶發生交易的時間集中在單日早中晚單位時間內,且交易金額在預設閾值之下。
  17. 一種基於請求項10行業識別模型的商業用戶行業確定裝置,該裝置包括:資訊獲取模組:用於獲取預設時間段內,包含待檢驗商業用戶每筆交易資訊的交易資訊集合;資料提取模組:用於藉由預定義的資料提取策略從該交易資訊集合中提取出待檢驗商業用戶的行業特徵資料;行業識別模組:用於將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的 所在行業。
  18. 如請求項17所述的裝置,該將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,以確定待檢驗商業用戶的所在行業,包括:將待檢驗商業用戶的行業特徵資料輸入訓練好的行業識別模型,獲取輸出的評價分數,並將評價分數低於預設閾值的商業用戶確定為問題商業用戶。
  19. 一種電腦設備,包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的電腦程式,其中,該處理器執行該程式時實現如請求項1所述的方法。
  20. 一種電腦設備,包括儲存器、處理器及儲存在儲存器上並可在處理器上運行的電腦程式,其中,該處理器執行該程式時實現如請求項8所述的方法。
TW108130391A 2019-01-08 2019-08-26 行業識別模型確定方法和裝置 TWI772673B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910014638.3A CN110009364B (zh) 2019-01-08 2019-01-08 一种行业识别模型确定方法和装置
CN201910014638.3 2019-01-08

Publications (2)

Publication Number Publication Date
TW202026992A TW202026992A (zh) 2020-07-16
TWI772673B true TWI772673B (zh) 2022-08-01

Family

ID=67165355

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108130391A TWI772673B (zh) 2019-01-08 2019-08-26 行業識別模型確定方法和裝置

Country Status (3)

Country Link
CN (2) CN113988880A (zh)
TW (1) TWI772673B (zh)
WO (1) WO2020143377A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988880A (zh) * 2019-01-08 2022-01-28 创新先进技术有限公司 一种行业识别模型确定方法和装置
CN110796471A (zh) * 2019-08-29 2020-02-14 连连银通电子支付有限公司 一种信息处理方法及装置
CN111275095B (zh) * 2020-01-17 2022-12-06 支付宝(杭州)信息技术有限公司 一种对象类型识别方法及装置
CN111311316B (zh) * 2020-02-03 2023-05-23 支付宝(杭州)信息技术有限公司 商户画像的刻画方法、装置、电子设备、验证方法及系统
CN111368543B (zh) * 2020-02-18 2023-06-02 银联智策顾问(上海)有限公司 一种确定商户类别的方法及装置
CN111695979A (zh) * 2020-06-18 2020-09-22 税友软件集团股份有限公司 一种原材料与成品的关系分析方法、装置及设备
CN111753496B (zh) * 2020-06-22 2023-06-23 平安付科技服务有限公司 行业类别识别方法、装置、计算机设备及可读存储介质
CN111832658B (zh) * 2020-07-20 2023-08-18 北京百度网讯科技有限公司 兴趣点信息处理方法、装置、电子设备和存储介质
CN115600112B (zh) * 2022-11-23 2023-03-07 北京结慧科技有限公司 获取行为预测模型训练集的方法、装置、设备及介质
CN117216688B (zh) * 2023-11-07 2024-01-23 西南科技大学 基于层次标签树与神经网络的企业行业识别方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN105931068A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种持卡人消费画像的生成方法及装置
CN108305099A (zh) * 2018-01-18 2018-07-20 阿里巴巴集团控股有限公司 确定代购用户的方法及装置
CN108564386A (zh) * 2018-04-28 2018-09-21 腾讯科技(深圳)有限公司 商户识别方法及装置、计算机设备及存储介质
CN109101989A (zh) * 2018-06-29 2018-12-28 阿里巴巴集团控股有限公司 一种商户分类模型构建和商户分类方法、装置及设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140172507A1 (en) * 2012-12-17 2014-06-19 Discover Financial Services Llc Merchant attrition predictive model
US10460347B2 (en) * 2012-12-30 2019-10-29 Certona Corporation Extracting predictive segments from sampled data
CN104881783A (zh) * 2015-05-14 2015-09-02 中国科学院信息工程研究所 电子银行账户欺诈行为及风险检测方法与系统
CN107545422B (zh) * 2017-08-02 2023-10-10 中国银联股份有限公司 一种套现检测方法及装置
CN108470253B (zh) * 2018-04-02 2021-08-03 腾讯科技(深圳)有限公司 一种用户识别方法、装置及存储设备
CN108733778B (zh) * 2018-05-04 2022-05-17 百度在线网络技术(北京)有限公司 对象的行业类型识别方法和装置
CN108876465B (zh) * 2018-06-28 2022-02-01 创新先进技术有限公司 一种对商户进行经营模式分群的方法、装置和服务器
CN113988880A (zh) * 2019-01-08 2022-01-28 创新先进技术有限公司 一种行业识别模型确定方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184574A (zh) * 2015-06-30 2015-12-23 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN105931068A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 一种持卡人消费画像的生成方法及装置
CN108305099A (zh) * 2018-01-18 2018-07-20 阿里巴巴集团控股有限公司 确定代购用户的方法及装置
CN108564386A (zh) * 2018-04-28 2018-09-21 腾讯科技(深圳)有限公司 商户识别方法及装置、计算机设备及存储介质
CN109101989A (zh) * 2018-06-29 2018-12-28 阿里巴巴集团控股有限公司 一种商户分类模型构建和商户分类方法、装置及设备

Also Published As

Publication number Publication date
CN113988880A (zh) 2022-01-28
WO2020143377A1 (zh) 2020-07-16
CN110009364A (zh) 2019-07-12
CN110009364B (zh) 2021-08-24
TW202026992A (zh) 2020-07-16

Similar Documents

Publication Publication Date Title
TWI772673B (zh) 行業識別模型確定方法和裝置
CN107690657B (zh) 根据影像发现商户
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
US20210035126A1 (en) Data processing method, system and computer device based on electronic payment behaviors
CN107423613B (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN109189991A (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN109165645A (zh) 一种图像处理方法、装置以及相关设备
CN110008397B (zh) 一种推荐模型训练方法及装置
CN109472626B (zh) 一种面向手机租赁业务的智能金融风险控制方法及系统
CN115391669B (zh) 一种智能推荐方法、装置、电子设备
CN110349013A (zh) 风险控制方法及装置
CN112559923A (zh) 网址资源推荐方法、装置、电子设备及计算机存储介质
CN113095408A (zh) 风险的确定方法、装置和服务器
CN107704941B (zh) 一种显示物品评论的方法及装置
CN113409157B (zh) 一种跨社交网络用户对齐方法以及装置
CN106157281A (zh) 一种图像主体识别方法及装置
CN104867032A (zh) 电子商务客户评价鉴别系统
CN110515929B (zh) 书籍展示方法、计算设备及存储介质
CN114897322A (zh) 一种数据资产价值评估系统及方法
CN110599195B (zh) 一种识别刷单的方法
CN109784637A (zh) 应用于处理平台数据分析的方法和装置
CN111383050A (zh) 产品数据整合及分析方法、装置及计算机可读存储介质
CN109740422A (zh) 一种识别汽车的方法及装置
CN112948691B (zh) 实体场所的体验指标计算方法和装置
WO2022267160A1 (zh) 产品推荐方法、装置、电子设备和存储介质