TWI709927B

TWI709927B - 目標用戶群體的確定方法及裝置

Info

Publication number: TWI709927B
Application number: TW107134928A
Authority: TW
Inventors: 汪昊宇; 彭際群
Original assignee: 開曼群島商創新先進技術有限公司
Priority date: 2017-12-06
Filing date: 2018-10-03
Publication date: 2020-11-11
Also published as: CN108153824A; WO2019109698A1; CN108153824B; TW201926170A

Abstract

本說明書實施例提供一種目標用戶群體的確定方法及裝置，包括：按照不同的文本資訊，將全體用戶群體劃分為兩個以上的子用戶群體。根據各個子用戶群體對應的文本資訊的篩選條件，從各個子用戶群體中篩選出對應的候選用戶群體。將各個候選用戶群體對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，匹配成功時，確定文本資訊的匹配分數。合併各個候選用戶群體，得到核心用戶群體。根據核心用戶群體中用戶的各類文本資訊的匹配分數，從核心用戶群體中選取種子用戶。分別計算種子用戶的每類文本資訊與其它用戶的該類文本資訊的相似度。根據該相似度，從其它用戶中選取擴展用戶。將擴展用戶擴充到核心用戶群體，從而得到目標用戶群體。

Description

目標用戶群體的確定方法及裝置

本說明書一個或多個實施例係有關電腦技術領域，尤其有關一種目標用戶群體的確定方法及裝置。

傳統技術中，在從大量用戶中選取目標用戶群體時，通常是先對該大量用戶主動提供的資訊進行人工審核，之後根據經人工審核後確定的目標資訊，來進行上述選取操作。或者，預先創建目標名單或者詞庫，該目標名單或者詞庫中包含目標資訊，之後透過將大量用戶各自的文本資訊與目標名單或者詞庫進行匹配，來進行上述選取操作。　　因此，需要提供一種更快速、更有效地確定目標用戶群體的方案。

本說明書的一個或多個實施例描述了一種目標用戶群體的確定方法及裝置，可以更快速、更有效地確定目標用戶群體。　　第一態樣，提供了一種目標用戶群體的確定方法，包括：　　獲取全體用戶群體；　　將所述全體用戶群體劃分為兩個以上的子用戶群體，其中，不同的子用戶群體分別對應不同的文本資訊；　　根據各個子用戶群體對應的文本資訊的篩選條件，從所述各個子用戶群體中篩選出對應的候選用戶群體，得到兩個以上的候選用戶群體；　　對每個候選用戶群體，將對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，若匹配成功，則確定所述文本資訊的匹配分數；　　合併所述兩個以上的候選用戶群體，得到核心用戶群體；　　根據所述核心用戶群體中用戶的各類文本資訊的匹配分數，從所述核心用戶群體中選取種子用戶；　　分別計算所述種子用戶的每類文本資訊與所述全體用戶群體中除所述種子用戶外的其它用戶的該類文本資訊的相似度；　　根據所述相似度，從所述其它用戶中選取擴展用戶；　　將所述擴展用戶擴充到所述核心用戶群體，從而得到目標用戶群體。　　第二態樣，提供了一種目標用戶群體的確定裝置，包括：　　獲取單元，用以獲取全體用戶群體；　　劃分單元，用以將所述獲取單元獲取的所述全體用戶群體劃分為兩個以上的子用戶群體，其中，不同的子用戶群體分別對應不同的文本資訊；　　篩選單元，用以根據所述劃分單元劃分的各個子用戶群體對應的文本資訊的篩選條件，從所述各個子用戶群體中篩選出對應的候選用戶群體，得到兩個以上的候選用戶群體；　　匹配單元，用以對所述篩選單元篩選的每個候選用戶群體，將對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，若匹配成功，則確定所述文本資訊的匹配分數；　　合併單元，用以合併所述篩選單元篩選的所述兩個以上的候選用戶群體，得到核心用戶群體；　　選取單元，用以根據所述核心用戶群體中用戶的各類文本資訊的匹配分數，從所述核心用戶群體中選取種子用戶；　　計算單元，用以分別計算所述選取單元選取的所述種子用戶的每類文本資訊與所述全體用戶群體中除所述種子用戶外的其它用戶的該類文本資訊的相似度；　　所述選取單元，還用以根據所述計算單元計算的所述相似度，從所述其它用戶中選取擴展用戶；　　擴充單元，用以將所述選取單元選取的所述擴展用戶擴充到所述核心用戶群體，從而得到目標用戶群體。　　本說明書的一個或多個實施例提供的目標用戶群體的確定方法及裝置，按照不同的文本資訊，將獲取的全體用戶群體劃分為兩個以上的子用戶群體。根據各個子用戶群體對應的文本資訊的篩選條件，從各個子用戶群體中篩選出對應的候選用戶群體。將各個候選用戶群體對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，並在匹配成功的情況下，確定文本資訊的匹配分數。合併各個候選用戶群體，得到核心用戶群體。根據核心用戶群體中用戶的各類文本資訊的匹配分數，從核心用戶群體中選取種子用戶。分別計算種子用戶的每類文本資訊與其它用戶的該類文本資訊的相似度。根據該相似度，從其它用戶中選取擴展用戶。將擴展用戶擴充到核心用戶群體，從而得到目標用戶群體。由此，可以更快速、更有效地確定目標用戶群體。

下面結合附圖，對本說明書提供的方案進行描述。

本說明書的一個實施例提供的目標用戶群體的確定方法可以應用於如圖1所示的場景中。在圖1中，目標用戶群體的確定裝置可以根據用戶的文本資訊(包括但不限於收貨地址以及通訊錄等)，從全體用戶群體中確定出高淨值人群。此處的高淨值人群可以是指具有穩定工作和較高收入的群體。其可以包括但不限於在金融行業(包括銀行業、證券業、保險業)和IT行業(包括軟體服務、互聯網)工作的企業員工、在大型國企工作的企業職工、在政府機關工作的公務員、在行政事業單位工作的教師、醫生和其他公職人員等。因為該群體償債能力高，還款意願強，具有較低的信用風險水準。所以目標用戶群體確定裝置可以將該高淨值人群推送給消費信貸系統。從而消費信貸系統可以為該群體提供對應的消費信貸產品，由此，可以達到擴張發展信貸業務的目的，也可以為自動化和個性化的信貸審批流程和行銷過程提供巨大的幫助。

當然，在實際應用中，本說明書實施例提供的目標用戶群體的確定方法還可以應用於其它場景中，如，高消費用戶群體的確定等，本說明書對此不作限制。

圖2為本說明書的一個實施例提供的目標用戶群體的確定方法流程圖。所述方法的執行主體可以為具有處理能力的設備：伺服器或者系統或者裝置，如，圖1中的目標用戶群體的確定裝置。如圖2所示，所述方法具體可以包括：

步驟210，獲取全體用戶群體。

例如，可以從支付寶系統的後臺資料庫中獲取該全體用戶群體。需要說明的是，該全體用戶群體中的用戶可以具有收貨地址和/或通訊錄等文本資訊。一般而言，在購物網站上有過實體商品購買記錄且完成交易訂單的用戶均有保存的收貨地址。上述通訊錄可以包括連絡人的標注資訊及對應的電話號碼。其中，連絡人的備註資訊可以包括連絡人的姓名、暱稱以及其它用來表示該連絡人所屬行業或者公司的資訊。例如，上述備註資訊可以為阿里巴巴張三以及李行長等等。

步驟220，將全體用戶群體劃分為兩個以上的子用戶群體。

其中，不同的子用戶群體分別對應不同的文本資訊。此處的文本資訊可以用於對子用戶群體中的用戶進行刻劃。其通常具有明確的指向性，且關係到用戶獲得服務的品質，因此通常具有較高的辨識度和可信度。

在本說明書，用戶的文本資訊包括但不限於以下一種或者多種：收貨地址、通訊錄、無線網路(如，wifi)名稱、全球定位系統(Global Positioning System，GPS)定位點對應的公司類地名、互聯網協定(Internet Protocol，IP)位址所對應的公司名稱、多媒體存取控制(Media Access Control，Mac)位址所對應的公司名稱、社交軟體的備註名稱、社交軟體的群組名稱、即時通訊工具的備註名稱以及即時通訊工具的群組名稱等。

以文本資訊包括收貨地址和通訊錄為例來說，可以將全體用戶群體劃分為兩個子用戶群體。其中，一個子用戶群體中的用戶均有收貨地址，亦即該一個子用戶群體與收貨地址相對應。另一個子用戶群體中的用戶均有通訊錄，亦即，另一個子用戶群體與通訊錄相對應。

步驟230，根據各個子用戶群體對應的文本資訊的篩選條件，從各個子用戶群體中篩選出對應的候選用戶群體，得到兩個以上的候選用戶群體。

以文本資訊包括收貨地址和通訊錄為例來說，收貨地址的篩選條件包括以下一種或多種：收貨地址為用戶本人使用(收貨人為本人或者聯繫電話為本人手機號碼)、收貨地址在近期(如，近一年)被用戶使用過以及收貨地址歸屬於公司類地址等。對通訊錄，前提是通訊錄中的連絡人有綁定的手機號碼。一般而言，為了便於驗證身份和觸達用戶，許多網站都要求用戶綁定手機號碼。在上述大前提下，通訊錄的篩選條件可以包括以下一種或多種：通訊錄所屬用戶的電話號碼為用戶本人使用以及該電話號碼包含在其它通訊錄中。對於篩選條件“電話號碼包含在其它通訊錄中”解釋如下：由於用戶的通訊錄內保存的實際是用戶的連絡人的資訊，只有用戶的連絡人才會在他們的通訊錄內保存該用戶的資訊。因此，要求用戶的電話號碼包含在其它通訊錄中。

如前述例子，對一個子用戶群體，可以根據對應的收貨地址的篩選條件，從該一個子用戶群體中篩選出對應的候選用戶群體。可以理解的是，該候選用戶群體也與收貨地址相對應。亦即，該候選群體中的用戶均具有收貨地址。同理，對另一個子用戶群體，可以根據對應的通訊錄的篩選條件，從另一個子用戶群體中篩選出對應的候選用戶群體。可以理解的是，該候選用戶群體也與通訊錄相對應。亦即，該候選群體中的用戶均具有通訊錄。從而得到兩個候選用戶群體。

需要說明的是，透過該步驟可以減少不必要的計算和處理，從而僅關注可能是高淨值人群的候選用戶群體。

步驟240，對每個候選用戶群體，將對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，若匹配成功，則確定文本資訊的匹配分數。

對前述例子中的兩個候選用戶群體對應的收貨地址和通訊錄，其匹配和確定匹配分數的過程可以如圖3所示。在圖3中，可以包括如下幾個步驟：

步驟a，創建關鍵字庫。該關鍵字庫中可以包括所關注行業和公司的關鍵字。如，當所關注行業為金融行業時，該關鍵字庫中可以包括：“中國銀行”、“國泰君安證券”以及“太平洋保險”等關鍵字。而當所關注行業為IT行業時，該關鍵字庫可以包括“阿里巴巴”、“騰訊”以及“華為”等關鍵字。需要說明的是，上述關鍵字可以包括公司的全稱、簡稱或者其它具有辨識度的名稱等。

步驟b，文本結構化。即對文本資訊進行清洗，並按語義成分進行結構化。如，對於收貨地址，可以將省市縣分離，並提取關鍵性門址(也稱興趣點(point of interest，POI))。以收貨地址為：“浙江省杭州市西湖區翠苑街道萬塘路18號黃龍時代廣場B座6樓支付寶公司”為例來說，提取的關鍵性門址可以為：“萬塘路18號黃龍時代廣場B座6樓支付寶公司”。對於通訊錄，可以從通訊錄中提取連絡人的標注資訊。並從標注資訊中去除不相關詞語，該不相關詞語可以包括連絡人的姓名、暱稱以及其它無關稱謂(如，“女士”或者“哥們”)等。

需要說明的是，在本說明書中，對收貨地址進行文本結構化的步驟還可以包括切分的步驟。如，可以將收貨地址切分為“省份/城市/區縣/街道/路/門牌號/寫字樓/樓層/公司/其他”的形式。

步驟c，文本精確匹配。在此說明書中，文本精確匹配的過程即為：判斷關鍵性門址或者連絡人的標注資訊是否包含關鍵字庫中的關鍵字的過程，若包含，則匹配成功；否則匹配不成功。舉例來說，假設關鍵字庫中的關鍵字包括：“中國銀行”、“支付寶公司”以及“騰訊”等。且假設關鍵性門址為：“萬塘路18號黃龍時代廣場B座6樓支付寶公司”。由於該關鍵性門址中包含了關鍵字“支付寶公司”，所以該關鍵性門址與關鍵字庫中的關鍵字匹配成功。

在圖3中，在對文本進行精確匹配之後，並在匹配成功的情況下，還包括確定匹配分數的步驟。具體地，確定收貨地址的匹配分數的步驟可以為：根據在預設時間段內收貨地址的使用次數，來確定對應的交易天數。之後將交易天數作為收貨地址的匹配分數。確定通訊錄的匹配分數的步驟可以為：確定標注資訊中包含該通訊錄所屬用戶的其它通訊錄的個數。將其它通訊錄的個數作為該通訊錄的匹配分數。舉例來說，以確定張三的通訊錄的匹配分數為例來說，假設有5個人的通訊錄中連絡人的標注資訊包含：“阿里張三”，3個人的通訊錄中連絡人的標注資訊包含：“阿里巴巴張三”，1個人的通訊錄中連絡人的標注資訊包含：“支付寶張三”，則張三的通訊錄的匹配分數為：5+3+1=9分。

以上是針對文本匹配成功時的說明。當文本匹配不成功時，如，當收貨地址不包含關鍵字庫中的關鍵字時，可以刪除該收貨地址，亦即刪除該收貨地址對應的用戶。由此可以看出，步驟240也是篩選用戶的過程。

在圖3中，在確定匹配分數之後，還可以執行錯誤處理的步驟。由於語言的靈活多樣性，不可避免存在錯配情況，例“中國銀行旁超市”、“工行小王介紹的客戶”，實際並不應作為識別目標，因此可以設計對應的規則(如，公司名稱加上方位詞)盡可能地將錯配案例剔除。此外，還將一些明顯的黑產、詐騙、推銷等人員剔除。　　步驟250，合併兩個以上的候選用戶群體，得到核心用戶群體。　　如前述例子，可以合併與收貨地址對應的候選用戶群體和與通訊錄對應的候選用戶群體。可以理解的是，由於部分用戶既有收貨地址又有通訊錄，因此，合併後的核心用戶群體的用戶數目會少於兩個候選用戶群體的用戶數目之和。　　步驟260，根據核心用戶群體中用戶的各類文本資訊的匹配分數，從核心用戶群體中選取種子用戶。　　在一種實現方式中，可以根據用戶的每類文本資訊的匹配分數，確定對應的等級資訊。之後將與各類文本資訊對應的等級資訊進行交叉融合，來確定用戶的匹配等級。在確定匹配等級之後，可以根據各個用戶的匹配等級，從核心用戶群體中選取種子用戶。　　以前述文本資訊包括收貨地址和通訊錄為例來說，假設收貨地址的等級資訊的確定規則為：匹配分數大於100，等級資訊為高(用“2”表示)；匹配分數在區間[100,50)之間時，等級資訊為中(用“1”表示)；匹配分數小於等於50時，等級資訊為低(用“0”表示)。還假設通訊錄的等級資訊的確定規則為：匹配分數大於20，等級資訊為高(用“2”表示)；匹配分數在區間[20,10)之間時，等級資訊為中(用“1”表示)；匹配分數小於等於10時，等級資訊為低(用“0”表示)。則匹配等級可以包括六個：特高(2+2)、中高(2+1)、高(2+0)、中(1+1)、中低(1+0)以及低(0+0)。而假設用戶A的收貨地址的匹配分數為“60”(即等級資訊為中)，通訊錄的匹配分數為“5”(即等級資訊為低)，則該用戶的匹配等級為中低(即1+0=1)。　　當然，上述只是一種簡單的用戶匹配等級的確定方法，在實際應用中，還可以結合其它複雜演算法來確定用戶的匹配等級，如，可以設定各個等級資訊的權重值，之後根據等級資訊和權重值共同確定用戶的匹配等級，本說明書對此不復贅述。　　可以理解的是，當核心用戶群體中的用戶只有收貨地址或者通訊錄時，可以將根據該收貨地址或者通訊錄的匹配分數確定的等級資訊作為用戶的匹配等級。　　在確定各個用戶的匹配等級之後，可以根據該匹配等級，從核心用戶群體中選取種子用戶。如前述例子，可以選取核心用戶群體中匹配等級為特高和中高的用戶為種子用戶。　　步驟270，分別計算種子用戶的每類文本資訊與全體用戶群體中除種子用戶外的其它用戶的該類文本資訊的相似度。　　以文本資訊為收貨地址為例來說，由於收貨地址存在以下現象：1) 同一公司的員工通常會使用現實中相同的收貨地址(如公司的門衛／收發室等)；2) 即便同樣的位址，不同用戶的寫法也不一定完全相同。基於此，該步驟就是為了使實際上表示同一個地址的不同收貨地址寫法都能歸併至該位址下，從而使因寫法存在差異而未被文本匹配的用戶也能被識別。因此，可以計算其它用戶的收貨地址與種子用戶的收貨地址的相似度。當相似度滿足閾值時，將該收貨地址作為與種子用戶的收貨地址“文本相似”的位址。這裡的“文本相似”可以是指“文本編輯(Levenshtein)距離”較近，文本編輯距離即為兩個文本字串間由一個經“增/刪/改”操作轉換成另一個所需要的最少操作次數。

需要說明的是，在對收貨地址進行文本結構化的過程中，如果還對該收貨地址進行了切分，則只需要將這些成分分別作為一個“字元”計算編輯距離即可。例如“浙江省/杭州市/西湖區/翠苑街道/萬塘路/18號/黃龍時代廣場B座/6樓/支付寶公司”與“浙江省/杭州市/西湖區/翠苑街道/萬塘路/18號/黃龍時代廣場B座/6樓”，在後者中沒有“支付寶公司”字樣，亦即兩者相差一個成分，由於該成分可以看作一個字元，在這種情況下依然可視為“支付寶公司”的收貨地址。當然，這要求有預先設定兩個文本相差一個字元可以作為相似文本的前提。

通訊錄與收貨地址不同，一方面不及收貨地址結構規整、指向明確，另一方面不存在收貨地址中可用於“協同判別””的“用戶-地址”關係對和可作為“種子”的地址。但考慮到通訊錄的豐富性和口語化特性，可充分利用其中的上下文語義資訊，透過尋找近義詞和關聯詞(統稱相關詞語)的方式將關鍵字庫進行擴充，從而實現識別更多目標用戶群體的目的。通訊錄相似度的計算過程可以如圖4所示。在圖4中，可以包括如下幾個步驟：

步驟v，詞嵌入(word embedding)。將通訊錄對應的子用戶群體的通訊錄中連絡人的標注資訊進行分詞處理，得到全量詞語集合。之後可以採用Word2Vec演算法(一種公認有效的詞向量化演算法，但不限於此演算法)進行無監督訓練得到每個詞語的詞向量。此時，任意兩個詞語均可將其詞向量的餘弦相似度(不限於此相似度計算方法)作為兩者的相似度，進而可以確定出全量詞語集合中各個詞語的相關詞語。

可以理解的是，透過該步驟，與種子用戶的通訊錄對應的種子詞語的相關詞語也確定了。需要說明的是，當種子詞語的個數為多個時，該多個種子詞語可以構成種子詞語的集合。

步驟w，擴充關鍵字庫。結合種子詞語的集合，統計各個種子詞語的詞頻。根據各個種子詞語的詞頻以及相關詞語，確定擴展詞語。將擴展詞語擴充到關鍵字庫中。舉例來說，假設種子詞語的集合中，種子詞語“阿里巴巴”的詞頻大於閾值，且“阿里巴巴”的相關詞語包括：“阿里”和“支付寶”等，則可以將“阿里巴巴”、“阿里”和“支付寶”擴充到關鍵字庫中。

步驟x，產生用戶向量。從與其它用戶的通訊錄對應的詞語中選取出現在擴充後的關鍵字庫中的目標詞語。結合全量詞語集合，統計目標詞語的詞頻。根據目標詞語的詞頻以及對應的詞向量(步驟x中確定的)，確定其它用戶的用戶向量。同理可以確定種子用戶的用戶向量。亦即，全體用戶群體中的每個用戶都有用戶向量。　　步驟y，產生種子向量。將所有種子用戶的用戶向量計算平均得到種子向量，該種子向量可以用來表示全部的種子用戶。　　步驟z，計算相似度。計算其它用戶的用戶向量與種子向量的餘弦相似度(不限於此相似度計算方法)。將餘弦該相似度作為其它用戶的通訊錄與種子用戶的通訊錄之間的相似度。該相似度越高，說明其它用戶屬於識別目標用戶群體的機率越高。　　至此，由收貨地址和通訊錄兩個資料來源經匹配和擴展等文本挖掘過程識別得到了目標用戶群體，由匹配識別的帶有匹配等級，由擴展識別的帶有相似度。由於兩個資料來源是相互獨立的，因此可將上述結果進行交叉融合。匹配等級越高，則融合後的等級(稱為置信等級)越高；相似度越高，則置信等級越高。如從兩個來源均能被識別，則置信等級也越高。最終，產出識別人群和置信等級，置信等級越高，則用戶屬於目標用戶群體的機率越高。　　步驟280，根據相似度，從其它用戶中選取擴展用戶。　　如，可以選取其它用戶中相似度大於閾值的用戶作為擴展用戶。　　當然，在實際應用中，也可以透過其它方式來選取擴展用戶。以文本資訊為收貨地址為例來說，可以利用收貨地址的經緯度資訊進一步擴充該公司的收貨地址。例如將在某公司園區範圍內的所有收貨地址認為是該公司地址，則使用該地址的用戶均為該公司員工。再以文本資訊為通訊錄為例來說，可以利用由通訊錄的連絡人的標注資訊形成的網路結構進行公司員工的擴散。例如將某公司員工甲標注為“老闆”或“同事”等稱謂的乙也認為是該公司員工。在透過上述兩種方式識別出同一公司的員工之後，該同一公司的員工也可以選取為擴展用戶。　　步驟290，將擴展用戶擴充到核心用戶群體，從而得到目標用戶群體。　　需要說明的是，雖然本說明書上述實施例均以收貨地址和通訊錄為例進行了舉例說明，但可以理解的是，當文本資訊為無線網路名稱等其它資訊時，目標用戶群體的確定過程類似，本說明書在此不復贅述。　　需要說明的是，以確定消費信貸領域的高淨值人群為例來說，在經過上述步驟210到步驟290之後，就可以提取出用戶的職業和公司等資訊，從而作為用戶的職業屬性標籤。進而可以根據用戶的職業屬性標籤，來確定高淨值人群。　　綜上，本方案可以由編寫好的程式利用現有資料自動執行，無需用戶專門新增填寫相關資訊，也無需審批員人工作業或監督，在確保識別精度的前提下，不僅能大大減少人力成本投入，而且能提升用戶體驗。　　本方案不受限於文本資訊的可獲取性和規整性。一方面，收貨地址和通訊錄兩大資料來源的覆蓋率很高，不管是在網站上有過購物的物流記錄，還是使用過通訊社交類產品，均可納入識別範圍。事實上，超過半數的用戶都有這兩類文本資訊。另一方面，即使收貨地址的填寫和通訊錄中連絡人的標注資訊存在不規範性，在精確匹配識別一部分用戶的基礎上，引入了計算相似度的步驟，能起到類似於模糊匹配的效果，有效地擴充了識別人群的覆蓋度。此外，對由兩類相互獨立的資料來源識別得到的結果進行了交叉驗證，有效地確保了識別結果的準確度。　　識別出的目標用戶群體在百萬數量級，信用風險約為全體用戶群體的八分之一，後續透過開放准入、提高授信、降低定價等方式，能很好地提升消費信貸業務涵蓋的人群範圍和服務品質，也能有效地控制整體風險。　　圖5為本說明書另一個實施例提供的目標用戶群體的確定方法示意圖。在圖5中，可以透過樣本篩選和文本挖掘兩個過程，而從全體用戶群體中確定出目標用戶群體。其中，樣本篩選的過程為：對全體用戶群體，將有通訊錄的用戶劃分到第一子用戶群體，將有收貨地址的用戶劃分到第二子用戶群體。之後，根據通訊錄的篩選條件(包括但不限於：通訊錄所屬用戶的電話號碼為用戶本人使用以及電話號碼包含在其它通訊錄中)，從第一子用戶群體中篩選對應的第一候選用戶群體。並根據收貨地址的篩選條件(包括但不限於：收貨地址為用戶本人使用、收貨地址在近期被用戶使用過以及收貨地址歸屬於公司類地址)，從第二子用戶群體中篩選對應的第二候選用戶群體。　　在圖5中，對於經過樣本篩選的用戶，分別從收貨地址和通訊錄兩個方面對其進行文本挖掘。文本挖掘包括兩個部分：匹配和擴展。匹配即為利用關鍵字庫對文本資訊進行精確匹配；擴展是在匹配的基礎上，對未能匹配到的人群進一步加以識別，以擴大識別的覆蓋度。　　匹配的過程具體可以為：將第一候選用戶群體中各個用戶的通訊錄與關鍵字庫中的關鍵字進行匹配，若某一用戶的通訊錄與關鍵字庫中的關鍵字匹配成功，則保留該用戶，並確定該用戶的通訊錄的匹配分數；否則剔除該用戶。此外，還可以將第二候選用戶群體中各個用戶的收貨地址與關鍵字庫中的關鍵字進行匹配，若某一用戶的收貨地址與關鍵字庫中的關鍵字匹配成功，則保留該用戶，並確定該用戶的收貨地址的匹配分數；否則剔除該用戶。在對第一候選用戶群體和第二候選用戶群體執行上述匹配的步驟之後，可以合併該兩個候選用戶群體。合併後的候選用戶群體也可以稱為核心用戶群體(亦即，兩個候選用戶群體的聯集)。對核心用戶群體中的用戶，可以根據該用戶的收貨地址的匹配分數和通訊錄的匹配分數，來確定該用戶的匹配等級。之後，可以根據匹配等級，從核心用戶群體中選取種子用戶(亦即，兩個候選用戶群體的交集)。在選取種子用戶之後，就可以進入到擴展部分了。　　擴展的過程具體可以為：計算種子用戶的收貨地址與全體用戶群體中除種子用戶之外的其它用戶的收貨地址之間的相似度，並根據該相似度，從其它用戶中選取擴展用戶。此外，還可以計算種子用戶的通訊錄與其它用戶的通訊錄之間的相似度，並根據該相似度，從其它用戶中選取擴展用戶。在選取擴展用戶之後，該擴展用戶與核心用戶群體共同構成目標用戶群體。　　總之，上述實施例提出了利用文本挖掘技術識別目標用戶群體的方法。對於收貨地址和通訊錄兩類不同形式的文本資訊，結合目標行業的語料特性，針對性地設計了文本精確匹配演算法。利用協同判別方式對收貨地址進行擴展，利用文本向量化方式對通訊錄進行擴展，從而擴大了識別人群的覆蓋範圍。將收貨地址和通訊錄兩類來源上相互獨立的資料加以融合，透過交叉驗證的方式提升了識別準確度。　　與上述目標用戶群體的確定方法對應地，本說明書的一個實施例還提供的一種目標用戶群體的確定裝置，如圖6所示，該裝置包括：　　獲取單元601，用以獲取全體用戶群體。　　劃分單元602，用以將獲取單元601獲取的全體用戶群體劃分為兩個以上的子用戶群體，其中，不同的子用戶群體分別對應不同的文本資訊。　　其中，文本資訊可以包括：收貨地址、通訊錄、無線網路名稱、全球定位系統GPS定位點對應的公司類地名、互聯網協定IP位址所對應的公司名稱、多媒體存取控制Mac位址所對應的公司名稱、社交軟體的備註名稱、社交軟體的群組名稱、即時通訊工具的備註名稱以及即時通訊工具的群組名稱中的若干個。　　篩選單元603，用以根據劃分單元602劃分的各個子用戶群體對應的文本資訊的篩選條件，從各個子用戶群體中篩選出對應的候選用戶群體，得到兩個以上的候選用戶群體。　　可選地，當文本資訊為收貨地址時，收貨地址的篩選條件包括以下一種或多種：收貨地址為用戶本人使用、收貨地址在近期被用戶使用過以及收貨地址歸屬於公司類地址。　　可選地，當文本資訊為通訊錄時，通訊錄包括連絡人的標注資訊及對應的電話號碼；通訊錄的篩選條件包括以下一種或多種：通訊錄所屬用戶的電話號碼為用戶本人使用以及電話號碼包含在其它通訊錄中。　　匹配單元604，用以對篩選單元603篩選的每個候選用戶群體，將對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，若匹配成功，則確定文本資訊的匹配分數。　　可選地，匹配單元604具體可以用以：　　從收貨地址中提取關鍵性門址。　　將關鍵性門址與關鍵字庫中的關鍵字進行精確匹配。　　若匹配成功，則根據在預設時間段內收貨地址的使用次數，確定對應的交易天數。　　將交易天數作為收貨地址的匹配分數。　　可選地，匹配單元604具體可以用以：　　從通訊錄中提取連絡人的標注資訊。　　從標注資訊中去除不相關詞語，不相關詞語包括連絡人的姓名、暱稱以及其它無關稱謂。　　將去除不相關詞語後的標注資訊與關鍵字庫中的關鍵字進行精確匹配。　　若匹配成功，則確定標注資訊中包含通訊錄所屬用戶的其它通訊錄的個數。　　將其它通訊錄的個數作為通訊錄的匹配分數。　　合併單元605，用以合併篩選單元603篩選的兩個以上的候選用戶群體，得到核心用戶群體。　　選取單元606，用以根據核心用戶群體中用戶的各類文本資訊的匹配分數，從核心用戶群體中選取種子用戶。　　計算單元607，用以分別計算選取單元606選取的種子用戶的每類文本資訊與全體用戶群體中除種子用戶外的其它用戶的該類文本資訊的相似度。　　可選地，計算單元607具體可以用以：　　將通訊錄對應的子用戶群體的通訊錄中連絡人的標注資訊進行分詞處理，得到全量詞語集合。　　確定全量詞語集合中各個詞語的相關詞語。　　從全量詞語集合中確定出與種子用戶的通訊錄對應的種子詞語的集合。種子詞語具有對應的相關詞語。　　結合種子詞語的集合，統計各個種子詞語的詞頻。　　根據各個種子詞語的詞頻以及相關詞語，確定擴展詞語。　　將擴展詞語擴充到關鍵字庫中。　　從與其它用戶的通訊錄對應的詞語中選取出現在擴充後的關鍵字庫中的目標詞語。　　計算目標詞語與種子詞語的相似度。　　將相似度作為種子用戶的通訊錄與其它用戶的通訊錄的相似度。　　可選地，計算單元607還具體可以用以：　　結合全量詞語集合，統計目標詞語的詞頻。　　根據詞向量化演算法，分別將目標詞語以及種子詞語表示為對應的詞向量。　　根據目標詞語的詞頻以及對應的詞向量，確定目標詞語的用戶向量，並根據種子詞語的詞頻以及對應的詞向量，確定種子詞語的用戶向量。　　根據目標詞語的用戶向量以及種子詞語的用戶向量，確定目標詞語與種子詞語的相似度。　　選取單元606，還用以根據計算單元607計算的相似度，從其它用戶中選取擴展用戶。　　擴充單元608，用以將選取單元606選取的擴展用戶擴充到核心用戶群體，從而得到目標用戶群體。　　本說明書之上述實施例裝置的各功能模組的功能，可以透過上述方法實施例的各步驟來實現，因此，本說明書的一個實施例提供的裝置的具體操作過程，在此不復贅述。　　本說明書的一個實施例提供的目標用戶群體的確定裝置，獲取單元601獲取全體用戶群體。劃分單元602將全體用戶群體劃分為兩個以上的子用戶群體。篩選單元603根據各個子用戶群體對應的文本資訊的篩選條件，從各個子用戶群體中篩選出對應的候選用戶群體，得到兩個以上的候選用戶群體。匹配單元604對每個候選用戶群體，將對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，若匹配成功，則確定文本資訊的匹配分數。合併單元605合併兩個以上的候選用戶群體，得到核心用戶群體。選取單元606根據核心用戶群體中用戶的各類文本資訊的匹配分數，從核心用戶群體中選取種子用戶。計算單元607分別計算種子用戶的每類文本資訊與全體用戶群體中除種子用戶外的其它用戶的該類文本資訊的相似度。選取單元606於根據相似度，從其它用戶中選取擴展用戶。擴充單元608將擴展用戶擴充到核心用戶群體，從而得到目標用戶群體。由此，可以更快速、更有效地確定目標用戶群體。　　本領域技術人員應該可以意識到，在上述一個或多個示例中，本說明書所描述的功能可以用硬體、軟體、韌體或它們的任意組合來實現。當使用軟體實現時，可以將這些功能儲存在電腦可讀媒體中或者作為電腦可讀媒體上的一個或多個指令或代碼來進行傳輸。　　以上所述的具體實施方式，對本說明書的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本說明書的具體實施方式而已，並不用來限定本說明書的保護範圍，凡在本說明書的技術方案的基礎之上，所做的任何修改、等同替換、改進等，均應包括在本說明書的保護範圍之內。

601‧‧‧獲取單元602‧‧‧劃分單元603‧‧‧篩選單元604‧‧‧匹配單元605‧‧‧合併單元606‧‧‧選取單元607‧‧‧計算單元608‧‧‧擴充單元

為了更清楚地說明本說明書實施例的技術方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本說明書的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖而獲得其它的附圖。　　圖1為本說明書的一個實施例提供的目標用戶群體的確定方法的應用場景示意圖；　　圖2為本說明書的一個實施例提供的目標用戶群體的確定方法流程圖；　　圖3為本說明書提供的用戶的文本資訊的匹配過程示意圖；　　圖4為本說明書提供的用戶的通訊錄的相似度的計算過程示意圖；圖5為本說明書的另一個實施例提供的目標用戶群體的確定方法示意圖；圖6為本說明書的一個實施例提供的目標用戶群體的確定裝置示意圖。

Claims

一種目標用戶群體的確定方法，其特徵在於，包括：　　獲取全體用戶群體；　　將該全體用戶群體劃分為兩個以上的子用戶群體，其中，不同的子用戶群體分別對應不同的文本資訊；　　根據各個子用戶群體對應的文本資訊的篩選條件，從該各個子用戶群體中篩選出對應的候選用戶群體，得到兩個以上的候選用戶群體；　　對每個候選用戶群體，將對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，若匹配成功，則確定該文本資訊的匹配分數；　　合併該兩個以上的候選用戶群體，得到核心用戶群體；　　根據該核心用戶群體中用戶的各類文本資訊的匹配分數，從該核心用戶群體中選取種子用戶；　　分別計算該種子用戶的每類文本資訊與該全體用戶群體中除該種子用戶外的其它用戶的該類文本資訊的相似度；　　根據該相似度，從該其它用戶中選取擴展用戶；以及　　將該擴展用戶擴充到該核心用戶群體，從而得到目標用戶群體。
根據請求項1所述的方法，其中，該文本資訊包括：收貨地址、通訊錄、無線網路名稱、全球定位系統GPS定位點對應的公司類地名、互聯網協定IP位址所對應的公司名稱、多媒體存取控制Mac位址所對應的公司名稱、社交軟體的備註名稱、社交軟體的群組名稱、即時通訊工具的備註名稱以及即時通訊工具的群組名稱中的若干個。
根據請求項1所述的方法，其中，　　當該文本資訊為收貨地址時，該收貨地址的篩選條件包括以下一種或多種：收貨地址為用戶本人使用、收貨地址在近期被用戶使用過以及收貨地址歸屬於公司類地址。
根據請求項3所述的方法，其中，該將對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，若匹配成功，則確定該文本資訊的匹配分數，包括：　　從該收貨地址中提取關鍵性門址；　　將該關鍵性門址與關鍵字庫中的關鍵字進行精確匹配；　　若匹配成功，則根據在預設時間段內該收貨地址的使用次數，確定對應的交易天數；以及　　將該交易天數作為該收貨地址的匹配分數。
根據請求項1所述的方法，其中，　　當該文本資訊為通訊錄時，該通訊錄包括連絡人的標注資訊及對應的電話號碼；該通訊錄的篩選條件包括以下一種或多種：通訊錄所屬用戶的電話號碼為該用戶本人使用以及該電話號碼包含在其它通訊錄中。
根據請求項5所述的方法，其中，該將對應的文本資訊與關鍵字庫中的關鍵字進行匹配，若匹配成功，則確定該文本資訊的匹配分數，包括：　　從該通訊錄中提取連絡人的標注資訊；　　從該標注資訊中去除不相關詞語，該不相關詞語包括連絡人的姓名、暱稱以及其它無關稱謂；　　將去除不相關詞語後的標注資訊與關鍵字庫中的關鍵字進行精確匹配；　　若匹配成功，則確定標注資訊中包含該通訊錄所屬用戶的其它通訊錄的個數；以及　　將該其它通訊錄的個數作為該通訊錄的匹配分數。
根據請求項5或6所述的方法，其中，該分別計算該種子用戶的每類文本資訊與該全體用戶群體中除該種子用戶外的其它用戶的該類文本資訊的相似度，包括：　　將該通訊錄對應的子用戶群體的通訊錄中連絡人的標注資訊進行分詞處理，得到全量詞語集合；　　確定該全量詞語集合中各個詞語的相關詞語；　　從該全量詞語集合中確定出與該種子用戶的通訊錄對應的種子詞語的集合；該種子詞語具有對應的相關詞語；　　結合該種子詞語的集合，統計各個種子詞語的詞頻；　　根據該各個種子詞語的詞頻以及相關詞語，確定擴展詞語；　　將該擴展詞語擴充到該關鍵字庫中；　　從與該其它用戶的通訊錄對應的詞語中選取出現在擴充後的關鍵字庫中的目標詞語；　　計算該目標詞語與該種子詞語的相似度；以及　　將該相似度作為該種子用戶的通訊錄與該其它用戶的通訊錄的相似度。
根據請求項7所述的方法，其中，該計算該目標詞語與該種子詞語的相似度，包括：　　結合該全量詞語集合，統計該目標詞語的詞頻；　　根據詞向量化演算法，分別將該目標詞語以及該種子詞語表示為對應的詞向量；　　根據該目標詞語的詞頻以及對應的詞向量，確定該目標詞語的用戶向量，並根據該種子詞語的詞頻以及對應的詞向量，確定該種子詞語的用戶向量；以及　　根據該目標詞語的用戶向量以及該種子詞語的用戶向量，確定該目標詞語與該種子詞語的相似度。
一種目標用戶群體的確定裝置，其特徵在於，包括：　　獲取單元，用以獲取全體用戶群體；　　劃分單元，用以將該獲取單元獲取的該全體用戶群體劃分為兩個以上的子用戶群體，其中，不同的子用戶群體分別對應不同的文本資訊；　　篩選單元，用以根據該劃分單元劃分的各個子用戶群體對應的文本資訊的篩選條件，從該各個子用戶群體中篩選出對應的候選用戶群體，得到兩個以上的候選用戶群體；　　匹配單元，用以對該篩選單元篩選的每個候選用戶群體，將對應的文本資訊與關鍵字庫中的關鍵字進行精確匹配，若匹配成功，則確定該文本資訊的匹配分數；　　合併單元，用以合併該篩選單元篩選的該兩個以上的候選用戶群體，得到核心用戶群體；　　選取單元，用以根據該核心用戶群體中用戶的各類文本資訊的匹配分數，從該核心用戶群體中選取種子用戶；　　計算單元，用以分別計算該選取單元選取的該種子用戶的每類文本資訊與該全體用戶群體中除該種子用戶外的其它用戶的該類文本資訊的相似度；　　該選取單元，還用以根據該計算單元計算的該相似度，從該其它用戶中選取擴展用戶；以及　　擴充單元，用以將該選取單元選取的該擴展用戶擴充到該核心用戶群體，從而得到目標用戶群體。
根據請求項9所述的裝置，其中，該文本資訊包括：收貨地址、通訊錄、無線網路名稱、全球定位系統GPS定位點對應的公司類地名、互聯網協定IP位址所對應的公司名稱、多媒體存取控制Mac位址所對應的公司名稱、社交軟體的備註名稱、社交軟體的群組名稱、即時通訊工具的備註名稱以及即時通訊工具的群組名稱中的若干個。
根據請求項9所述的裝置，其中，　　當該文本資訊為收貨地址時，該收貨地址的篩選條件包括以下一種或多種：收貨地址為用戶本人使用、收貨地址在近期被用戶使用過以及收貨地址歸屬於公司類地址。
根據請求項11所述的裝置，其中，該匹配單元具體用以：　　從該收貨地址中提取關鍵性門址；　　將該關鍵性門址與關鍵字庫中的關鍵字進行精確匹配；　　若匹配成功，則根據在預設時間段內該收貨地址的使用次數，確定對應的交易天數；以及　　將該交易天數作為該收貨地址的匹配分數。
根據請求項9所述的裝置，其中，　　當該文本資訊為通訊錄時，該通訊錄包括連絡人的標注資訊及對應的電話號碼；該通訊錄的篩選條件包括以下一種或多種：通訊錄所屬用戶的電話號碼為該用戶本人使用以及該電話號碼包含在其它通訊錄中。
根據請求項13所述的裝置，其中，該匹配單元具體用以：　　從該通訊錄中提取連絡人的標注資訊；　　從該標注資訊中去除不相關詞語，該不相關詞語包括連絡人的姓名、暱稱以及其它無關稱謂；　　將去除不相關詞語後的標注資訊與關鍵字庫中的關鍵字進行精確匹配；　　若匹配成功，則確定標注資訊中包含該通訊錄所屬用戶的其它通訊錄的個數；以及　　將該其它通訊錄的個數作為該通訊錄的匹配分數。
根據請求項13或14所述的裝置，其中，該計算單元具體用以：　　將該通訊錄對應的子用戶群體的通訊錄中連絡人的標注資訊進行分詞處理，得到全量詞語集合；　　確定該全量詞語集合中各個詞語的相關詞語；　　從該全量詞語集合中確定出與該種子用戶的通訊錄對應的種子詞語的集合；該種子詞語具有對應的相關詞語；　　結合該種子詞語的集合，統計各個種子詞語的詞頻；　　根據該各個種子詞語的詞頻以及相關詞語，確定擴展詞語；　　將該擴展詞語擴充到該關鍵字庫中；　　從與該其它用戶的通訊錄對應的詞語中選取出現在擴充後的關鍵字庫中的目標詞語；　　計算該目標詞語與該種子詞語的相似度；以及　　將該相似度作為該種子用戶的通訊錄與該其它用戶的通訊錄的相似度。
根據請求項15所述的裝置，其中，該計算單元還具體用以：　　結合該全量詞語集合，統計該目標詞語的詞頻；　　根據詞向量化演算法，分別將該目標詞語以及該種子詞語表示為對應的詞向量；　　根據該目標詞語的詞頻以及對應的詞向量，確定該目標詞語的用戶向量，並根據該種子詞語的詞頻以及對應的詞向量，確定該種子詞語的用戶向量；以及　　根據該目標詞語的用戶向量以及該種子詞語的用戶向量，確定該目標詞語與該種子詞語的相似度。