TW201843622A

TW201843622A - 基於資料源的業務客製裝置、方法及電腦可讀儲存介質

Info

Publication number: TW201843622A
Application number: TW106135248A
Authority: TW
Inventors: 王健宗; 黃章成; 吳天博; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-05-05
Filing date: 2017-10-13
Publication date: 2018-12-16
Also published as: US11544639B2; CN107038256B; CN107038256A; JP6573418B2; EP3441891A1; KR20190022440A; AU2017408797B2; EP3441891A4; KR102171974B1; SG11201900260VA; JP2019519009A; WO2018201601A1; US20200302346A1; TWI677828B; AU2017408797A1

Abstract

本發明涉及一種基於資料源的業務客製裝置、方法及電腦可讀儲存介質，業務客製裝置包括：儲存器、處理器及儲存在儲存器上並可在處理器上運行的基於資料源的業務客製系統，基於資料源的業務客製系統被處理器執行時實現如下步驟：獲取預定的各資料源中的使用者生成內容；利用預先訓練生成的使用者群體標籤識別模型對使用者生成內容進行識別，以識別出各資料源對應的使用者群體標籤；根據預定的使用者群體標籤與群體業務的映射關係確定各資料源對應的群體業務，將各資料源與對應的群體業務發送給預定的終端，以對各資料源進行群體業務客製。

Description

基於資料源的業務客製裝置、方法及電腦可讀儲存介質

本發明涉及網際網路技術領域，尤其涉及一種基於資料源的業務客製裝置、方法及電腦可讀儲存介質。

使用者生成內容(UGC，User Generated Content)是由使用者在網站或其他開放性媒介中參與生成的內容，該內容可獨立傳播展示並播放，例如微網誌、論壇討論、使用者自製的音視訊、問答、各種網路新聞等等。目前，很多金融公司(例如，銀行、保險等公司)基於這些使用者生成內容進行分析，並確定使用者的行為特徵標籤，進而根據使用者的行為特徵標籤客製(或推廣)對應的業務。

然而，這種確定每個使用者的行為特徵標籤並為每個使用者客製業務的方案，相對於網路上海量的使用者生成內容，會使得業務的客製受到很大的局限性，業務客製的效率低下。

本發明的目的在於提供一種基於資料源的業務客製裝置、方法及電腦可讀儲存介質，旨在基於群體性的資料源進行大範圍的業務客製，提高業務客製的效率。

為實現上述目的，本發明提供一種基於資料源的業務客製裝置，該基於資料源的業務客製裝置包括：儲存器、處理器及儲存在該儲存器上並可在該處理器上運行的基於資料源的業務客製系統，該基於資料源的業務客製系統被該處理器執行時實現如下步驟：S1，獲取預定的各資料源中的使用者生成內容；S2，利用預先訓練生成的使用者群體標籤識別模型對該使用者生成內容進行識別，以識別出各資料源對應的使用者群體標籤；S3，根據預定的使用者群體標籤與群體業務的映射關係確定各該資料源對應的群體業務，將各該資料源與對應的群體業務發送給預定的終端，以對各該資料源進行群體業務客製。

在一實施例中，該使用者群體標籤識別模型基於最大熵準則進行建立，該使用者群體標籤識別模型的模型函數包括使用者行為屬性分佈函數，該使用者行為屬性分佈函數為：，該x為使用者，該y為使用者標籤，該f _j(x,y)為使用者x的第j個特徵的屬性，λ _j,y=｛λ _1,y,λ _2,y,λ _3,y,...,λ _F,y}為使用者的行為屬性的機率分佈，該Z(x)是正規化因子。

在一實施例中，該使用者群體標籤識別模型的模型函數還包括最優化函數，該最優化函數為：，該p(x _i,y _i)為使用者 xi的標籤yi在使用者群體標籤中出現的機率，該為使用者的行為屬性的似然函數，該為正則化因子，該β為控制該最優化函數正則化程度的參數。

在一實施例中，該使用者群體標籤識別模型的識別過程包括對該使用者的行為屬性的機率分佈進行求解迭代，以及在每一迭代的過程中還包括微分模式迭代。

在一實施例中，該基於資料源的業務客製系統被該處理器執行步驟S1之前，還包括：S01，獲取預設數量的資料源中的使用者生成內容，以獲取的每一資料源中的使用者生成內容為一群體資料樣本，並為每一群體資料樣本標注對應的使用者群體標籤；S02，將該群體資料樣本分為預設的第一比例的訓練集及預設的第二比例的驗證集，該第一比例及第二比例之和小於等於1；S03，利用該訓練集中的群體資料樣本對預定的使用者群體標籤識別模型進行訓練，並在訓練完成後利用該驗證集對訓練後的使用者群體標籤識別模型的準確率進行驗證；S04，若該準確率大於預設閾值，則模型訓練結束，以訓練後的使用者群體標籤識別模型作為該步驟S2中的使用者群體標籤識別模型，或者，若準確率小於等於預設閾值，則增加資料源的數量，並基於增加後的資料源重新進行訓練。

為實現上述目的，本發明還提供一種基於資料源的業務客製方法，該基於資料源的業務客製方法包括：S1，獲取預定的各資料源中的使用者生成內容；S2，利用預先訓練生成的使用者群體標籤識別模型對該使用者生成內容進行識別，以識別出各資料源對應的使用者群體標籤；S3，根據預定的使用者群體標籤與群體業務的映射關係確定各該資料源對應的群體業務，將各該資料源與對應的群體業務發送給預定的終端，以對各該資料源進行群體業務客製。

在一實施例中，該使用者群體標籤識別模型基於最大熵準則進行建立，該使用者群體標籤識別模型的模型函數包括使用者行為屬性分佈函數，該使用者行為屬性分佈函數為：，該x為使用者，該y為使用者標籤，該f _j(x,y)為使用者x的第j個特徵的屬性，λ _j,y={λ _1,y,λ _2,y,λ _3,y,...,λ _F,y}為使用者的行為屬性的機率分佈，該Z(x)是正規化因子。

在一實施例中，該使用者群體標籤識別模型的模型函數還包括最優化函數，該最優化函數為：，該p(x _i,y _i)為使用者xi的標籤yi在使用者群體標籤中出現的機率，該為使用者的行為屬性的似然函數，該為正則化因子，該β為控制該最優化函數正則化程度的參數。

在一實施例中，該步驟S1之前包括：S01，獲取預設數量的資料源中的使用者生成內容，以獲取的每一資料源中的使用者生成內容為一群體資料樣本，並為每一群體資料樣本標注對應的使用者群體標籤；S02，將該群體資料樣本分為預設的第一比例的訓練集及預設的第二比例的驗證集，該第一比例及第二比例之和小於等於1；S03，利用該訓練集中的群體資料樣本對預定的使用者群體標籤識別模型進行訓練，並在訓練完成後利用該驗證集對訓練後的使用者群體標籤識別模型的準確率進行驗證；S04，若該準確率大於預設閾值，則模型訓練結束，以訓練後的使用者群體標籤識別模型作為該步驟S2中的使用者群體標籤識別模型，或者，若準確率小於等於預設閾值，則增加資料源的數量，並基於增加後的資料源重新進行訓練。

本發明還提供一種電腦可讀儲存介質，該電腦可讀儲存介質上儲存有基於資料源的業務客製系統，該基於資料源的業務客製系統被處理器執行時實現上述的基於資料源的業務客製方法的步驟。

本發明的有益效果是：本發明獲取預定的各資料源中的使用者生成內容，利用使用者群體標籤識別模型識別出各資料源對應的使用者群體標籤，並確定各資料源對應的群體業務，將各資料源與對應的群體業務發送給預定的終端，本發明利用使用者群體標籤識別模型快速、準確地對各資料源中的使用者進行識別，以識別出各資料源對應的使用者群體標籤，基於群體性的資料源對應的使用者群體標籤進行群體業務客製，能夠大範圍地進行業務客製，提高業務客製的效率。

1‧‧‧基於資料源的業務客製裝置

2‧‧‧終端

3‧‧‧網路

10‧‧‧基於資料源的業務客製系統

11‧‧‧儲存器

12‧‧‧處理器

13‧‧‧網路介面

S1~S3‧‧‧步驟

S01~S04‧‧‧步驟

圖1為本發明各個實施例一可選的應用環境示意圖；圖2是圖1中基於資料源的業務客製裝置一實施例的硬體架構的示意圖；圖3為本發明基於資料源的業務客製方法第一實施例的流程示意圖；圖4為本發明基於資料源的業務客製方法第二實施例的流程示意圖；

為了使本發明的目的、技術方案及優點更加清楚明白，以下結合附圖及實施例，對本發明進行進一步詳細說明。應當理解，此處所描述的具體實施例僅用以解釋本發明，並不用於限定本發明。基於本發明中的實施例，所屬技術領域中具有通常知識者在沒有做出進步性勞動前提下所獲得的所有其他實施例，都屬本發明保護的範圍。

需要說明的是，在本發明中涉及“第一”、“第二”等的描述僅用於描述目的，而不能理解為指示或暗示其相對重要性或者隱含指明所指示的技術特徵的數量。由此，限定有“第一”、“第二”的特徵可以明示或者隱含地包括至少一個該特徵。另外，各個實施例之間的技術方案可以相互結合，但是必須是以所屬技術領域中具有通常知識者能夠實現為基礎，當技術方案的結合出現相互矛盾或無法實現時應當認為這種技術方案的結合不存在，也不在本發明要求的保護範圍之內。

參閱圖1，是本發明各個實施例一可選的應用環境示意圖。

在本實施例中，本發明可應用於包括，但不僅限於，基於資料源的業務客製裝置1、終端2、網路3的應用環境中。其中，該基於資料源的業務客製裝置1可以是行動電話、智慧型電話、筆記本電腦、數位廣播接收器、PDA(個人數位助理)、PAD(平板電腦)、PMP(便攜式多媒體播放器)、導航裝置等等的可移動設備，以及諸如數位TV、桌上型電腦、筆記本、伺服器等等的固定終端。該網路3可以是企業內部網(Intranet)、網際網路(Internet)、全球行動通訊系統(Global System of Mobile communication，GSM)、寬頻分碼多重存取(Wideband Code Division Multiple Access，WCDMA)、4G網路、5G網路、藍牙(Bluetooth)、Wi-Fi等無線或有線網路。其中，該基於資料源的業務客製裝置1通過該網路3分別與一個或多個該終端2通信連接。

參閱圖2，是圖1中基於資料源的業務客製裝置1一可選的硬體架構的示意圖，本實施例中，基於資料源的業務客製裝置1可包括，但不僅限於，可通過系統匯流排相互通信連接基於資料源的業務客製系統10、儲存器11、處理器12、網路介面13。需要指出的是，圖2僅示出了具有組件10-13的基於資料源的業務客製裝置1，但是應理解的是，並不要求實施所有示出的組件，可以替代的實施更多或者更少的組件。

其中，該儲存器11至少包括一種類型的可讀儲存介質，該可讀儲存介質包括快閃記憶體、硬碟、多媒體卡、卡型記憶體(例如，SD或DX記憶體等)、隨機存取記憶體(RAM)、靜態隨機存取記憶體(SRAM)、唯讀記憶體(ROM)、電子可抹除可程式化唯讀記憶體(EEPROM)、可程式化唯讀記憶體(PROM)、磁性記憶體、磁碟、光碟等。在一些實施例中，該儲存器11可以是該基於資料源的業務客製裝置1的內部儲存單元，例如該基於資料源的業務客製裝置1的硬碟或記憶體。在另一些實施例中，該儲存器11也可以是該基於資料源的業務客製裝置1的外部儲存設備，例如該基於資料源的業務客製裝置1上配備的外接式硬碟，智慧媒體卡(Smart Media Card,SMC)，安全數位(Secure Digital,SD)卡，快閃記憶卡(Flash Card)等。當然，該儲存器11還可以既包括該基於資料源的業務客製裝置1的內部儲存單元也包括其外部儲存設備。本實施例中，該儲存器11通常用於儲存安裝於該基於資料源的業務客製裝置1的操作系統和各類應用軟體，例如該基於資料源的業務客製系統10的程式碼等。此外，該儲存器11還可以用於暫時地儲存已經輸出或者將要輸出的各類資料。

該處理器12在一些實施例中可以是中央處理器(Central Processing Unit，CPU)、控制器、微控制器、微處理器、或其他資料處理晶片。該處理器12通常用於控制該基於資料源的業務客製裝置1的總體操作，例如執行與該終端2進行資料交互或者通信相關的控制和處理等。本實施例中，該處理器12用於運行該儲存器11中儲存的程式碼或者處理資料，例如運行該基於資料源的業務客製系統10等。

該網路介面13可包括無線網路介面或有線網路介面，該網路介面13通常用於在該基於資料源的業務客製裝置1與其他電子設備之間建立通信連接。本實施例中，該網路介面13主要用於通過該網路3將該基於資料源的業務客製裝置1與一個或多個該終端2相連，以建立資料傳輸通道和通信連接。

其中，上述基於資料源的業務客製系統10被該處理器12執行時實現如下步驟：

步驟S1，獲取預定的各資料源中的使用者生成內容；本實施例中，預定的資料源可以是微網誌網站、論壇網站及網路新聞網站等，其中，每個資料源中有大量的使用者，每一使用者均可以自行參與或製作使用者生成內容。

本實施例中，業務客製系統可以即時獲取各資料源中的使用者生成內容，以獲取各資料源中最新的使用者生成內容，也可以定時(例如每隔一小時)獲取各資料源中的使用者生成內容，以減輕系統負擔。

具體地，在一資料源中產生使用者生成內容後，可以將產生的使用者生成內容主動發送給上述的業務客製系統，或者將其儲存至預定的伺服器的儲存區域中，然後由業務客製系統從該伺服器中獲取該使用者生成內容。

步驟S2，利用預先訓練生成的使用者群體標籤識別模型對該使用者生成內容進行識別，以識別出各資料源對應的使用者群體標籤；其中，預先訓練生成的使用者群體標籤識別模型為機器學習模型，例如可以是支援向量機模型或者隨機森林模型等，當然也可以是其他的模型。

在一實施例中，使用者群體標籤識別模型為基於最大熵準則進行建立的模型，以具有最大熵的機率分佈作為使用者的行為屬性的機率分佈，使用者群體標籤識別模型的模型函數包括使用者行為屬性分佈函數，使用者行為屬性分佈函數用以描述各使用者對應的行為屬性的機率分佈狀況，使用者行為屬性分佈函數為：，該使用者行為屬性分佈函數為一指數分佈函數，其中，x為使用者，y為使用者標籤(使用者標籤例如為“理財”、“證券”或“保險”等)，f _j(x,y)為使用者x的第j個行為屬性(使用者的行為屬性為其在資料源中所做出的行為，例如包括使用者在資料源中發表的內容、討論的內容等等)，F為使用者x的行為屬性的總數，λ _j,y={λ _1,y,λ _2,y,λ _3,y,...,λ _F,y}為使用者的行為屬性的機率分佈(即)，Z(x)是正規化因子，Z(x)的作用是為了使得使用者行為屬性分佈函數pΛ(y|x)歸一化在[0，1]的範圍內，其值為。

本實施例中，基於最大熵準則建立的使用者群體標籤識別模型的作用是為了準確、快速地識別得到各資料源的使用者群體標籤。

進一步地，基於上述的使用者行為屬性分佈函數，使用者群體標籤識別模型的模型函數還包括最優化函數，最優化函數為構造尋求最佳解或最大評分的計算方法，最優化函數為：，其中，λ _j,y用Λ={λ _1,y,λ _2,y,...,λ _F,y}表示(即為使用者的行為屬性的機率分佈)，p(x _i,y _i)為使用者xi的標籤yi在使用者群體標籤中出現的機率，為使用者的行為屬性的似然函數，為正則化因子，β為控制最優化函數正則化程度的參數，β的取值範圍為[0，1]，在一實施例中，β=0.6。

其中，argmax表示尋找具有最大評分的參量，求解並使得對於任何一個使用者都有最大值，則各資料源的使用者群體標籤就可以用進行表示。

步驟S3，根據預定的使用者群體標籤與群體業務的映射關係確定各該資料源對應的群體業務，將各該資料源與對應的群體業務發送給預定的終端，以對各該資料源進行群體業務客製。

本實施例中，預先將使用者群體標籤與對應的群體業務進行關聯映射，例如對於使用者群體標籤為“理財”或者“證券”的，則將該使用者群體標籤關聯映射的群體業務為股票業務、基金業務、債券業務、期貨業務及保險業務等；又如對於使用者群體標籤為“保險”的，則將該使用者群體標籤關聯映射的群體業務為財險業務、壽險業務、車險業務及航運險業務等；再如對於使用者群體標籤為“壽險”的，則將該使用者群體標籤關聯映射的群體業務為壽險業務(有投資型、儲蓄型、養老年金型及普通型等)、健康險業務和意外傷害險業務等，然後將使用者群體標籤與群體業務的映射關係進行儲存(例如以列表的形式儲存)。

在識別出各資料源的使用者群體標籤後，根據儲存的使用者群體標籤與群體業務的映射關係得到對應的群體業務，將各資料源與對應的群體業務發送給預定的終端，例如發送給群體業務的業務推廣員的終端，以供業務推廣員對該資料源的所有使用者進行群體業務客製或推廣。

與現有技術相比，本實施例獲取預定的各資料源中的使用者生成內容，利用使用者群體標籤識別模型識別出各資料源對應的使用者群體標籤，並確定各資料源對應的群體業務，將各資料源與對應的群體業務發送給預定的終端，本實施例利用使用者群體標籤識別模型快速、準確地對各資料源中的使用者進行識別，以識別出各資料源對應的使用者群體標籤，基於群體性的資料源對應的使用者群體標籤進行群體業務客製，能夠大範圍地進行業務客製，提高業務客製的效率。

在一較佳的實施例中，在上述圖1的實施例的基礎上，為了對使用者群體標籤識別模型進行快速求解，使用者群體標籤識別模型的求解過程包括求解迭代步驟，使用者群體標籤識別模型的求解迭代步驟的目標是求得微分為零的一個式子。該求解迭代步驟如下：假設將一個給定的資料源的行為屬性分佈函數記作L(Λ)，Λ={λ _1,y,λ _2,y,...,λ _F,ｙ}。假設Λ+△={λ _1,y+δ ₁,λ _2,y+δ ₂,λ _3,y+δ ₃...}，則求解使用者行為屬性的機率分佈時，根據上述的最優化函數得到：由於存在不等式-log α α，則有：又由於延森(Jensen's inequality)不等式Σ p(x)exp q(x)expΣp(x)q(x)，則有：；取導數可得(微分為零的公式)：

在一實施例中，使用者群體標籤識別模型在上述每一迭代的過程中還包括微分模式迭代，微分模式迭代的目標是快速解出上述式子為0的近似解：假設上式為f(δ _i)，在每一步迭代求解過程中，都需要使得導數為0，由於此式子形式如同ae ^bx+cx+d=0，較難求解，所以用Newton-Raphson方式求解，由於x是一個很小的值：使而以此類推(下述公式是上述微分為零的公式的近似解)可以得到：當f(δ _i ⁽ⁿ⁺¹⁾)<τ時，終止迭代，其中τ是一個控制收斂準確度的值，至此求解結束。

在一較佳的實施例中，在上述圖2的實施例的基礎上，為了訓練得到能夠準確、快速地識別資料源的使用者群體標籤的模型，該基於資料源的業務客製系統10被該處理器12執行步驟S1之前，還包括：

S01，獲取預設數量(例如1000個)的資料源中的使用者生成內容，以獲取的每一資料源中的使用者生成內容為一群體資料樣本，並為每一群體資料樣本標注對應的使用者群體標籤；其中，每一群體資料樣本可以標注一個或者多個使用者群體標籤，使用者群體標籤例如是“理財”、“保險”等等。

S02，將該群體資料樣本分為預設的第一比例(例如50%)的訓練集及預設的第二比例的驗證集(例如25%)，該第一比例及第二比例之和小於等於1；

S03，利用該訓練集中的群體資料樣本對預定的使用者群體標籤識別模型進行訓練，並在訓練完成後利用該驗證集對訓練後的使用者群體標籤識別模型的準確率進行驗證；

S04，若該準確率大於預設閾值(例如，98.5%)，則模型訓練結束，以訓練後的使用者群體標籤識別模型作為上述步驟S2中的使用者群體標籤識別模型，或者，若準確率小於等於預設閾值，則增加資料源的數量，例如增加300個資料源，並基於增加後的資料源重新進行訓練。

如圖3所示，圖3為本發明基於資料源的業務客製方法一實施例的流程示意圖，該基於資料源的業務客製方法包括以下步驟：

在一實施例中，使用者群體標籤識別模型為基於最大熵準則進行建立的模型，以具有最大熵的機率分佈作為使用者的行為屬性的機率分佈，使用者群體標籤識別模型的模型函數包括使用者行為屬性分佈函數，使用者行為屬性分佈函數用以描述各使用者對應的行為屬性的機率分佈狀況，使用者行為屬性分佈函數為：，該使用者行為屬性分佈函數為一指數分佈函數，其中，x為使用者，y為使用者標籤(使用者標籤例如為“理財”、“證券”或“保險”等)，f _j(x,y)為使用者x的第j個行為屬性(使用者的行為屬性為其在資料源中所做出的行為，例如包括使用者在資料源中發表的內容、討論的內容等等)，F為使用者x的行為屬性的總數，λ _j,y={λ _1,y,λ _2,y,λ _3,y,...,λ _F,y}為使用者的行為屬性的機率分佈(即)，Z(x)是正規化因子，Z(x)的作用是為了使得使用者行為屬性分佈函數pΛ(y|x)歸一化在[0，1]的範圍內，其值為。

在一較佳的實施例中，在上述圖3的實施例的基礎上，為了對使用者群體標籤識別模型進行快速求解，使用者群體標籤識別模型的求解過程包括求解迭代步驟，使用者群體標籤識別模型的求解迭代步驟的目標是求得微分為零的一個式子。該求解迭代步驟如下：假設將一個給定的資料源的行為屬性分佈函數記作L(Λ)， Λ={λ _1,y,λ _2,y,...,λ _F,y}。假設Λ+△={λ _1,y+δ ₁,λ _2,y+δ ₂,λ _3,y+δ ₃...}，則求解使用者行為屬性的機率分佈時，根據上述的最優化函數得到：由於存在不等式-log α α，則有：又由於延森(Jensen's inequality)不等式Σp(x)exp q(x)expΣp(x)q(x)，則有：；取導數可得(微分為零的公式)：

在一較佳的實施例中，如圖4所示，在上述圖3的實施例的基礎上，為了訓練得到能夠準確、快速地識別資料源的使用者群體標籤的模型，上述步驟S1之前包括：

上述本發明實施例序號僅僅為了描述，不代表實施例的優劣。

通過以上的實施方式的描述，本領域的技術人員可以清楚地瞭解到上述實施例方法可借助軟體加必需的通用硬體平臺的方式來實現，當然也可以通過硬體，但很多情況下前者是更佳的實施方式。基於這樣的理解，本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品儲存在一個儲存介質(如ROM/RAM、磁碟、光碟)中，包括若干指令用以使得一台終端設備(可以是手機，電腦，伺服器，空調器，或者網路設備等)執行本發明各個實施例的方法。

以上僅為本發明的較佳實施例，並非因此限制本發明的專利範圍，凡是利用本發明說明書及附圖內容所作的等效結構或等效流程變換，或直接或間接運用在其他相關的技術領域，均同理包括在本發明的專利保護範圍內。

Claims

一種基於資料源的業務客製裝置，其中，該基於資料源的業務客製裝置包括：儲存器、處理器及儲存在該儲存器上並可在該處理器上運行的基於資料源的業務客製系統，該基於資料源的業務客製系統被該處理器執行時實現如下步驟：S1，獲取預定的各資料源中的使用者生成內容；S2，利用預先訓練生成的使用者群體標籤識別模型對該使用者生成內容進行識別，以識別出各資料源對應的使用者群體標籤；S3，根據預定的使用者群體標籤與群體業務的映射關係確定各該資料源對應的群體業務，將各該資料源與對應的群體業務發送給預定的終端，以對各該資料源進行群體業務客製。
根據請求項第1項所述之基於資料源的業務客製裝置，其中，該使用者群體標籤識別模型基於最大熵準則進行建立，該使用者群體標籤識別模型的模型函數包括使用者行為屬性分佈函數，該使用者行為屬性分佈函數為：，該x為使用者，該y為使用者標籤，該 f _j( x, y)為使用者x的第j個特徵的屬性， λ _j,y={ λ _1,y, λ _2,y, λ _3,y,..., λ _F,y}為使用者的行為屬性的機率分佈，該Z(x)是正規化因子。
根據請求項2所述之基於資料源的業務客製裝置，其中，該使用者群體標籤識別模型的模型函數還包括最優化函數，該最優化函數為：，該 p( x _i, y _i)為使用者x _i的標籤y _i在使用者群體標籤中出現的機率，該為使用者的行為屬性的似然函數，該為正則化因子，該 β為控制該最優化函數正則化程度的參數。
根據請求項2或3所述之基於資料源的業務客製裝置，其中，該使用者群體標籤識別模型的識別過程包括對該使用者的行為屬性的機率分佈進行求解迭代，以及在每一迭代的過程中還包括微分模式迭代。
根據請求項1、2或3所述之基於資料源的業務客製裝置，其中，該基於資料源的業務客製系統被該處理器執行步驟S1之前，還包括：S01，獲取預設數量的資料源中的使用者生成內容，以獲取的每一資料源中的使用者生成內容為一群體資料樣本，並為每一群體資料樣本標注對應的使用者群體標籤；S02，將該群體資料樣本分為預設的第一比例的訓練集及預設的第二比例的驗證集，該第一比例及第二比例之和小於等於1；S03，利用該訓練集中的群體資料樣本對預定的使用者群體標籤識別模型進行訓練，並在訓練完成後利用該驗證集對訓練後的使用者群體標籤識別模型的準確率進行驗證；S04，若該準確率大於預設閾值，則模型訓練結束，以訓練後的使用者群體標籤識別模型作為該步驟S2中的使用者群體標籤識別模型，或者，若準確率小於等於預設閾值，則增加資料源的數量，並基於增加後的資料源重新進行訓練。
一種基於資料源的業務客製方法，其中，該基於資料源的業務客製方法包括：S1，獲取預定的各資料源中的使用者生成內容；S2，利用預先訓練生成的使用者群體標籤識別模型對該使用者生成內容進行識別，以識別出各資料源對應的使用者群體標籤；S3，根據預定的使用者群體標籤與群體業務的映射關係確定各該資料源對應的群體業務，將各該資料源與對應的群體業務發送給預定的終端，以對各該資料源進行群體業務客製。
根據請求項6所述之基於資料源的業務客製方法，其中，該使用者群體標籤識別模型基於最大熵準則進行建立，該使用者群體標籤識別模型的模型函數包括使用者行為屬性分佈函數，該使用者行為屬性分佈函數為：，該x為使用者，該y為使用者標籤，該 f _j( x, y)為使用者x的第j個特徵的屬性， λ _j,y={ λ _1,y, λ _2,y, λ _3,y,..., λ _F,y}為使用者的行為屬性的機率分佈，該Z(x)是正規化因子。
根據請求項7所述之基於資料源的業務客製方法，其中，該使用者群體標籤識別模型的模型函數還包括最優化函數，該最優化函數為：，該 p( x _i, y _i)為使用者x _i的標籤y _i在使用者群體標籤中出現的機率，該為使用者的行為屬性的似然函數，該為正則化因子，該 β為控制該最優化函數正則化程度的參數。
根據請求項6、7或8所述之基於資料源的業務客製方法，其中，該步驟S1之前包括：S01，獲取預設數量的資料源中的使用者生成內容，以獲取的每一資料源中的使用者生成內容為一群體資料樣本，並為每一群體資料樣本標注對應的使用者群體標籤；S02，將該群體資料樣本分為預設的第一比例的訓練集及預設的第二比例的驗證集，該第一比例及第二比例之和小於等於1；S03，利用該訓練集中的群體資料樣本對預定的使用者群體標籤識別模型進行訓練，並在訓練完成後利用該驗證集對訓練後的使用者群體標籤識別模型的準確率進行驗證；S04，若該準確率大於預設閾值，則模型訓練結束，以訓練後的使用者群體標籤識別模型作為該步驟S2中的使用者群體標籤識別模型，或者，若準確率小於等於預設閾值，則增加資料源的數量，並基於增加後的資料源重新進行訓練。
一種電腦可讀儲存介質，其中，該電腦可讀儲存介質上儲存有基於資料源的業務客製系統，該基於資料源的業務客製系統被處理器執行時實現如請求項6至9中任一項所述之基於資料源的業務客製方法的步驟。