TW201843609A

TW201843609A - 用於以學習為基礎的群組標記之系統和方法

Info

Publication number: TW201843609A
Application number: TW107113535A
Authority: TW
Inventors: 楊文君; 李奘; 凌宏博; 曹利鋒; 常智華; 帆楊
Original assignee: 大陸商北京嘀嘀無限科技發展有限公司
Priority date: 2017-04-20
Filing date: 2018-04-20
Publication date: 2018-12-16
Also published as: AU2017410367A1; KR20190015410A; US20180307720A1; SG11201811624QA; JP2019528506A; BR112018077404A2; CN109690571A; BR112018077404A8; CA3029428A1; EP3461287A4; EP3461287A1; KR102227593B1; CN111931845A; PH12018550213A1; CN109690571B; AU2017410367B2; WO2018191918A1

Abstract

本申請提供了用於群組標記的系統和方法。該系統可以包括可存取平臺資料的處理器，該平臺資料包括多個使用者以及多個相關資料欄，該系統還包括儲存指令的記憶體，所述指令在由處理器執行時使該系統執行方法。該方法可以包括獲取使用者的第一子集以及相關第一標籤；為所述相關資料欄分別確定使用者的所述第一子集與多個使用者中至少一些使用者之間的至少一個差值；回應於確定所述差值超過第一臨界值，確定對應資料欄作為關鍵資料欄；確定對應關鍵資料欄的資料作為正樣本，所述關鍵資料欄與使用者的所述第一子集相關；基於關鍵資料欄，獲取使用者的第二子集以及相關資料作為負樣本；以及用正樣本和負樣本訓練規則模型。

Description

用於以學習為基礎的群組標記之系統和方法

本申請一般涉及使用者標記和基於學習的標記的方法和技術。

本申請主張2017年4月20日提交之申請號為PCT/CN2017/081279的PCT申請案的優先權，其全部內容通過引用被包含於此。

一個平臺可以提供各種服務給使用者。為便於使用者服務和管理，需要分組管理使用者。此過程可能帶來很多挑戰，尤其是當使用者數量變大時。

本發明的各種實施例可以包括被配置以執行群組標記的系統、方法、以及電腦可讀取媒體。用於群組標記的計算系統可以包括可存取平臺資料的一個或多個處理器以及儲存指令的記憶體，所述指令在由所述一個或多個處理器執行時使所述計算系統執行方法。平臺資料可以包括多個使用者以及多個相關資料欄。該方法可以包括：獲取使用者的第一子集以及與使用者的所述第一子集相關的一個或多個第一標籤；分別為一個或多個相關資料欄確定使用者的所述第一子集和至少部分所述多個使用者之間的至少一個差值；回應於確定差值超過第一臨界值時，將對應的資料欄確定為關鍵資料欄；將與使用者的所述第一子集相關的對應於一個或多個關鍵資料欄的資料確定為正樣本；基於所述一個或多個關鍵資料欄，從平臺資料中獲取使用者的第二子集以及相關資料作為負樣本；以及用正樣本和負樣本訓練規則模型以獲取訓練後的群組標記規則模型。

在一些實施例中，平臺資料可以包括與多個使用者中每個使用者對應的表格資料，所述資料欄可以包括資料維度或資料度量中至少一個。

在一些實施例中，所述多個使用者可以是平臺的使用者，該平臺可以是車輛資訊平臺，所述資料欄可以包括位置、使用量、交易金額或投訴數量中的至少一種。

在一些實施例中，獲取使用者的第一子集包括從一個或多個分析者中接收使用者的所述第一子集的辨識符，而無需完全存取所述平臺資料。

在一些實施例中，在伺服器獲取使用者的第一子集之前，平臺資料可以不包括所述第一標籤。

在一些實施例中，所述差值為庫爾貝克-萊伯勒(Kullback-Leibler)散度。

在一些實施例中，基於對一個或多個關鍵資料欄的相似性測量，使用者的所述第二子集在超過第三臨界值時與使用者的所述第一子集不同。

在一些實施例中，所述規則模型可以是決策樹模型。

在一些實施例中，所述訓練後的群組標記規則模型可以判斷是否將第一標籤分配給所述多個使用者中的一個或多個。

在一些實施例中，所述伺服器進一步被配置為將所述訓練後的群組標記規則模型應用於標記所述多個使用者和所述多個使用者中的新增的使用者。

在一些實施例中，群組標記方法可以包括獲取平臺的多個實體的第一子集。實體的第一子集可以用第一標籤來標記，且平臺資料可以包括多個實體的一個或多個資料欄的資料。群組標記方法可以進一步包括確定實體的所述第一子集與所述多個實體中一些其他實體的一個或多個資料欄中資料之間的至少一個差值。回應於確定所述差值超過第一臨界值，獲取與實體的所述第一子集相關的對應資料作為正樣本，以及獲取與所述多個實體的第二子集相關的對應資料作為負樣本。所述群組標記方法還包括用正樣本和負樣本訓練規則模型，以獲取訓練後的群組標記規則模型。所述訓練後的群組標記規則模型可以判斷現有的或新的實體是否有資格獲得第一標籤。

根據以下描述、所附請求項並參考圖式，本文揭露的系統、方法、以及非暫時性電腦可讀取媒體的這些以及其他特徵、方法中的操作步驟、相關結構組件的功能、以及部件的組合和製造的經濟，更加顯而易見，這些都構成本說明書的一部分，其中相同的元件符號表示各個附圖中的對應部分。然而，應當理解，附圖僅僅是為了說明和描述的目的，並不旨在限制本申請的範圍。

100‧‧‧示例性環境

102‧‧‧計算系統

104‧‧‧處理器

106‧‧‧記憶體

108‧‧‧資料儲存器

109‧‧‧資料儲存器

110‧‧‧計算裝置

111‧‧‧計算裝置

112‧‧‧計算裝置

120‧‧‧計算裝置

200‧‧‧示例性系統

202‧‧‧平臺資料

204‧‧‧使用者的第一子集和標籤資訊

206‧‧‧查詢

208‧‧‧查詢

210‧‧‧標記使用者

220‧‧‧服務、支付等

300‧‧‧示例性平臺資料

310‧‧‧示例性平臺資料

320‧‧‧示例性平臺資料

330‧‧‧示例性平臺資料

400‧‧‧方法

402‧‧‧步驟

404‧‧‧步驟

406‧‧‧步驟

408‧‧‧步驟

410‧‧‧步驟

412‧‧‧步驟

420‧‧‧方法

422‧‧‧步驟

424‧‧‧步驟

426‧‧‧步驟

428‧‧‧步驟

500‧‧‧電腦系統

502‧‧‧匯流排

504‧‧‧處理器

506‧‧‧主記憶體

508‧‧‧ROM

510‧‧‧記憶體

518‧‧‧通信介面

本申請的各種實施例的某些特徵將在所附請求項中具體闡述。通過參考以下詳細描述來更佳地理解該技術的特徵和優點，其中闡述了利用本發明的原理的說明性實施例以及圖式，其中：圖1示出了根據一些實施例的用於群組標記的示例性環境；圖2示出了根據一些實施例的用於群組標記的示例性系統；圖3A示出了根據一些實施例的示例性平臺資料；圖3B示出了根據一些實施例的具有第一標籤的示例性平臺資料；圖3C示出了根據一些實施例的示例性平臺資料，其中包括確定的正負樣本以及關鍵資料欄；圖3D示出了根據一些實施例的具有標記群組的示例性平臺資料；圖4A示出了根據一些實施例的用於群組標記的示例性方法的流程圖；圖4B示出了根據一些實施例的用於群組標記的另一示例性方法的流程圖；圖5示出了示例電腦系統的方塊圖，在此系統中可以實現在此描述的任何實施例。

群組標記對於有效的使用者管理至關重要。這種方法可以將大量的資料按順序排列，為進一步的資料處理、分析推導以及價值創造打下基礎。沒有群組標記，資料處理變得效率低下，尤其是當資料量增加時。即使可以根據某些「本地標記規則」手動標記一小部分資料，但這些規則不會在全域資料中得到驗證，並且可能不適合全域使用。此外，由於各種原因，如資料安全性、有限的工作責任以及缺乏技能背景，直接與使用者進行互動來收集第一手資料以及執行手動標記的分析者可能不被允許存取全域資料，進一步限制了從「本地標記規則」到「全域標記規則」的外推。

例如，在為大量使用者提供服務的線上平臺上，運營以及客服分析者可以直接與客戶互動並累積第一手資料。分析者還可以根據互動作用創建某些「本地標記規則」，例如，將某些相似背景或特徵的使用者歸類到一起。然而，分析者對整個平臺資料的權限有限，使用者可能不能存取與每個使用者相關的所有資訊。另一方面，存取平臺資料的工程師可能缺乏客戶互動經驗以及創建「全域標記規則」的基礎。因此，需要利用第一手的互動作用，細化「本地標記規則」，以及獲取適用於大規模平臺資料的適當的「全域標記規則」。

下面描述的各種實施例可以克服群組標記領域中出現的這些問題。在各種實施方式中，計算系統可以執行群組標記方法。群組標記方法可以包括獲取平臺的多個實體(例如，使用者、物件、虛擬表示物等)的第一子集。實體的第一子集可以分別按照標記規則(可以認為是「本地標記規則」)，用第一標籤來標記，以及平臺資料可以包括多個實體的一個或多個資料欄的資料。群組標記方法可以進一步包括確定實體的第一子集與多個實體中一些其他實體的一個或多個資料欄中資料之間的至少一個差值；群組標記方法可以進一步包括，回應於確定所述差值超過在一個或多個資料欄的特定資料欄中的第一臨界值，獲取與實體的第一子集相關聯的對應資料作為正樣本，以及獲取與多個實體的第二子集相關聯的對應資料作為負樣本，該第二子集的資料與實體的第一子集的資料在特定資料欄位中實質不同。如下所述，基於相似性測量法可以確定實質差異。所述群組標記方法還包括用正樣本和負樣本來訓練規則模型以獲取訓練後的群組標記規則模型。訓練後的群組標記規則模型可以應用於部分或全部平臺資料以判斷現有的或新的實體是否有資格獲得第一標籤。該判斷可以被視為「全域標記規則」。

在一些實施例中，實體可以包括平臺的使用者。群組標記的計算系統可以包括可存取平臺資料的伺服器。平臺資料可以包括多個使用者以及多個相關資料欄。伺服器可以包括可存取平臺資料的一個或多個處理器，以及儲存指令的記憶體，當所述指令由一個或多個處理器執行時，使計算系統獲取使用者的第一子集以及與使用者的第一子集相關的一個或多個第一標籤。所述指令可以進一步使計算系統分別為一個或多個相關資料欄確定使用者的所述第一子集與所述多個使用者中的至少一部分之間的至少一個差值。該指令可進一步使計算系統回應於確定所述差值超過第一臨界值，確定對應資料欄作為關鍵資料欄。該指令可以進一步使計算系統確定與使用者的所述第一子集相關的對應於所述一個或多個關鍵資料欄的資料作為正樣本。該指令可以進一步使計算系統基於一個或多個關鍵資料欄，獲取來自平臺資料的使用者的第二子集以及相關資料作為負樣本，使用者的第二子集的相關資料與實體的第一子集的相關資料實質上不同。該指令可以進一步使計算系統用正樣本和負樣本來訓練規則模型以達到第二準確性臨界值(例如，預定的準確性為98%的臨界值)以獲取訓練後的群組標記規則模型。

在一些實施例中，平臺可以是車輛資訊平臺。平臺資料可以包括與多個使用者中每個使用者對應的表格資料，資料欄可以包括資料維度或資料度量中的至少一個。多個使用者可以是平臺的使用者，資料欄可以包括使用者的位置、所述使用者使用平臺服務的次數、交易金額或投訴數量中的至少一種。

圖1示出了根據一些實施例的用於群組標記的示例性環境100。如圖1所示，示例性環境100可以包括至少一個計算系統102，其包括一個或多個處理器104以及記憶體106。記憶體106可以是非暫時性且電腦可讀取的。記憶體106可以儲存指令，當所述指令由一個或多個處理器104執行時，使一個或多個處理器104執行本申請描述的多個操作。環境100還可以包括連接到系統102的一個或多個計算裝置110、111、112以及120(例如，手機、平板電腦、電腦、可穿戴裝置(智慧手錶)等)。計算裝置可以根據存取和授權級別將資料傳輸到系統102或從系統102接收資料。環境100可以進一步包括可存取系統102的一個或多個資料儲存器(例如，資料儲存器108和109)。資料儲存器中的資料可以與不同的存取授權級別相關。

在一些實施例中，系統102可以被稱為資訊平臺(例如，提供車輛資訊的車輛資訊平臺，車輛資訊可由一方提供給服務另一方、由多方共用、在多方之間交換等)。平臺資料可以儲存在資料儲存器中(例如，資料儲存器108、109等)及/或記憶體106中。計算裝置120可以與平臺的使用者(例如，安裝有該平臺應用的使用者的手機)相關。除由平臺處理和回饋的資料儲存之外，計算裝置120可以無法對資料儲存器進行存取。計算裝置110以及111可以與對平臺資料只能有限存取和授權的分析者相關。計算裝置112可以與對平臺資料能夠完全存取和授權的工程師相關。

在一些實施例中，系統102以及一個或多個計算裝置(例如，計算裝置110、111或112)可以整合在單個裝置或系統中。或者，系統102以及計算裝置可以作為單獨的裝置操作。例如，計算裝置110、111和112可以是電腦或移動裝置，系統102可以是伺服器。資料儲存器可以位於可存取系統102的任何位置，例如在記憶體106中，在計算裝置110、111或112中，在連接到系統102的另一裝置(例如，網路儲存裝置)中，或另一儲存位置(例如，基於雲的儲存系統、網路檔案系統等)等。通常，系統102、計算裝置110、111、112以及120及/或資料儲存器108和109可以通過一個或多個有線或無線網路(例如網際網路)彼此通信，通過有線或無線網路可以傳達資料。下面參照圖2到圖4B描述環境100的各個態樣。

圖2示出了根據一些實施例的用於群組標記的示例性系統200。圖2所示的操作以及以下所呈現的內容是說明性的。在各種實施例中，計算裝置120可以與系統102互動(例如，註冊新使用者、訂單服務、交易支付等)，並且對應資訊可以至少作為平臺資料202的一部分儲存在資料儲存器108、109及/或記憶體106中，並且可存取系統102。下面參照圖3A到圖3D描述系統200之間的進一步互動。

參照圖3A，圖3A示出了根據一些實施例的示例性平臺資料300。圖3A的描述是說明性的，並且可以根據實施方式以各種方式修改。平臺資料可以以一種或多種格式(例如表格、物件等)儲存。如圖3A所示，平臺資料可以包括與平臺的多個實體(例如，諸如使用者A、B、C等的使用者)中的每一個相對應的表格資料。系統102(例如，伺服器)可以存取平臺資料，其包括多個使用者和多個相關資料欄(例如，「城市」、「裝置」、「使用量」、「支付」、「投訴」等)。例如，當使用者在平臺註冊時，使用者可以提交對應的帳戶資訊(例如，地址、城市、電話號碼、支付方法等)，並且平臺服務的使用、使用者歷史(例如，用於存取平臺的裝置、服務使用量、支付交易、投訴等)也可以記錄為平臺資料。帳戶資訊和使用者歷史可以儲存在與使用者相關的各種資料欄中。在表格中，資料欄可以呈現為資料列。資料欄可以包括維度以及度量。維度可以包括資料的屬性。例如，「城市」表示使用者的城市位置，「裝置」表示用於存取平臺的裝置。度量可以包括定量測量值。例如，「使用量」表示使用者已使用平臺服務的次數，「支付」表示使用者與平臺之間的交易總量，以及「投訴」表示使用者投訴平臺的次數。

在一些實施例中，根據權限等級，平臺的分析者和工程師(或其他人群)可以具有對平臺資料不同的存取等級。例如，分析者可以包括運營、客戶服務和技術支援團隊。在他們與平臺使用者的互動中，分析者可以只存取「使用者」、「城市」和「投訴」列中的資料，並且只有授權編輯「投訴」列。工程師可以包括資料學家、後端工程師和研究人員團隊。工程師可以擁有存取和編輯平臺資料300的所有列的完全權限。

返回到圖2部分，計算裝置110和111可以被對平臺資料有有限的存取和權限的分析者控制和操作。基於使用者互動或其他經驗，分析者可以確定「本地規則」來標記某些使用者。例如，分析者可以標記平臺使用者的第一子集並且將標籤資訊204(例如，使用者的第一子集的使用者ID)提交給系統102。參照圖3B，圖3B示出了根據一些實施例的具有第一標籤的示例性平臺資料310。圖3B的描述意圖是說明性的，並且可以根據實施方式以各種方式修改。除了添加第一標籤C1之外，平臺資料310與上述平臺資料300類似。系統102可以從多個使用者中獲取使用者的第一子集以及與使用者的第一子集相關的一個或多個第一標籤(例如，通過接收使用者的第一子集和標籤資訊204)。在系統102(例如，伺服器)獲取使用者的第一子集之前，平臺資料可以不包括第一標籤。系統102可以將所獲得的資訊(例如，標籤資訊204)整合到平臺資料(例如，藉由將「群組標籤」列添加到平臺資料300)。分析者所識別的使用者的第一子集可以包括對應於「14」個投訴的「使用者A」和對應於「19」個投訴的「使用者B」。分析者可能已將「使用者A」和「使用者B」都標記為「C1」。在此階段，將「使用者A」和「使用者B」標記為「C1」可以稱為「本地規則」，並且將確定如何將這個「本地規則」合成並外推給其他平臺使用者作為「全域規則」。

回到圖2部分，計算裝置112可以被對平臺資料有有限的存取和權限的工程師控制和操作。基於「本地規則」和平臺資料，工程師可以向系統102發送查詢206(例如，指令、命令等)以執行基於學習的群組標記。參照圖3C，圖3C示出了根據一些實施例的示例性平臺資料320，其具有確定的正負樣本以及關鍵資料欄。圖3C的描述意圖是說明性的，並且可以根據實施方式以各種方式修改。平臺資料320與上述的平臺資料310類似。一旦獲取使用者的第一子集和標籤資訊204，系統102可以分別為相關資料欄中的一個或多個，確定使用者的第一子集與至少一部分使用者之間的至少一個差值。例如，系統102可以分別為「城市」、「裝置」、「使用次量」、「支付」和「投訴」列中的一個或多個，確定使用者的第一子集(例如，使用者A和使用者B)的資料與至少一部分平臺使用者(例如，所有平臺使用者、除了使用者A和使用者B以外的所有平臺使用者、未來500名使用者等)的資料之間的至少一個差值(例如，庫爾貝克-萊伯勒散度)。

回應於於確定差值超過第一臨界值，系統102可將對應資料欄確定為關鍵資料欄，並將與使用者的第一子集相關的一個或多個關鍵資料欄的資料確定為正樣本。該第一臨界值可以是預定的。在本申請中，預定臨界值或其他屬性可以由系統(例如，系統102)或與系統相關的操作者(例如，分析者、工程師等)預設。例如，通過分析使用者的第一子集與其他平臺使用者(例如，平臺的所有其他使用者)的「支付」資料，系統102可確定該差值超過第一預定臨界值(例如，高於平臺的500個其他使用者的平均值)。因此，平臺102可以將「支付」資料欄確定為關鍵資料欄並且獲取作為正樣本的「使用者A-支付1500-群組標籤C1」和「使用者B-支付823-群組標籤C1」。在一些實施例中，關鍵資料欄可以包括多於一個資料欄，且資料欄可以包括維度及/或度量，如「城市」和「支付」。在這種情況下，可以使用「使用者A-城市XYZ-支付1500-群組標籤C1」和「使用者B-城市XYZ-支付823-群組標籤C1」作為正樣本。這裡，資料欄「城市」的第一預定臨界值可以是不同省份或州的城市。

基於一個或多個關鍵資料欄，系統102可以從多個使用者獲取第二使用者子集，並且從平臺資料中獲取使用者的第二子集的相關資料作為負樣本。系統102可以將標籤分配給負樣本以進行訓練。例如，系統102可以獲取作為負樣本的「使用者C-城市KMN-支付25-群組標籤NC1」以及「使用者D-城市KMN-支付118-群組標籤NC1」。在一些實施例中，基於對一個或多個關鍵資料欄的相似性測量結果，使用者的第二子集可以在超過第三臨界值(例如，第三預定臨界值)時不同於使用者的第一子集。通過獲取與不同使用者或使用者群組相關的一個或多個關鍵資料欄中的「距離」並與距離臨界值進行比較，相似性測量可以確定一組使用者是否與另一組使用者相似。相似性測量可以通過各種方法來實現，如(標準化的)歐氏距離法、曼哈頓距離法、切比雪夫距離法、閔可夫斯基距離法、馬哈諾比斯距離法、餘弦法、漢明距離法、傑卡德相似係數法、相關係數和距離法、資訊熵法等。

在實施歐氏距離法的一個例子中，如果使用者S的某一資料欄的屬性值為m1，使用者T的相同資料欄的屬性值為m2，則兩個使用者S和T之間的「距離」是。類似地，如果使用者S分別具有兩個資料欄的屬性 m1和n1，而另一使用者T具有對應資料欄的屬性m2和n2，則兩個使用者S和T之間的距離是。同樣的原則適用於更多的資料欄。此外，許多方法可以用於獲取兩組使用者之間的「距離」。例如，可以比較來自兩個群組的每對使用者，每個群組中使用者的使用者屬性可以被平均，或者由代表使用者的使用者屬性來表示，用以與另一個代表使用者的使用者屬性進行比較等。這樣，可以確定多個使用者或使用者群組之間的距離，並且可以確定距離使用者的第一子集足夠遠(具有高於預設臨界值的「距離」)的第二使用者子集。與使用者的第二子集相關的資料可以用作負樣本。

在實施餘弦法的另一個例子中，可以將使用者S的各種屬性(m1、n1...)和另一個使用者T的各種屬性(m2、n2、......)視為向量。兩個使用者之間的“距離”是兩個向量之間的角度。例如，使用者S(m1，n1)和T (m2，n2)之間的「距離」是θ，其中， cos θ在-1與1之間。cos θ越接近1，兩個使用者彼此越相似。同樣的原則適用於更多的資料欄。此外，可以使用許多方法來獲得兩組使用者之間的「距離」。例如，可以比較來自兩個群組的每對使用者，每個群組中的使用者的使用者屬性可以被平均，或者由代表使用者的使用者屬性來表示，以與另一個代表使用者的使用者屬性進行比較等。這樣，可以確定多個使用者或使用者群組之間的距離，並且可以確定距使用者的第一子集足夠遠(具有高於預設臨界值的「距離」)的第二使用者子集。與使用者的第二子集相關的資料可以用作負樣本。

歐氏距離法、餘弦法或其他相似性測量法也可以直接使用或修改為K最近鄰域法。本領域技術人員將認識到，K最近鄰域法可以用於基於「距離」進行的分類或回歸。在示例性分類模型中，物件(例如，平臺使用者)可以通過其鄰域的多數表決來分類，其中對象被分配給其K最近鄰域中最常見的類別。在1-D示例中，對於度量列，可以計算使用者的第一子集的資料與其他使用者的資料之間的平方根差，以及來自使用者的第一子集的差值超過第三預定臨界值的使用者可以作為負樣本。隨著關鍵資料欄數量的增加，複雜性也隨之增加。因此，簡單排序以及單個列資料的臨界值變得不足以合成「全域標記規則」，於是模型訓練開始應用。為此，根據物件的屬性(例如，資料欄)可以映射物件(例如，平臺使用者)。聚集資料點的每個部分可以通過K最近鄰域法確定為分類群組，使得與負樣本對應的群組遠離與第三預定臨界值以上的正樣本對應的另一群組。例如，如果使用者對應於兩個資料欄，則使用者可以被映射到x-y平面上，該平面的每個軸對應於一個資料欄。在x-y平面上對應於正樣本的區域遠離對應於負樣本的另一區域超過第三預定臨界值的距離。同樣，在資料欄較多的情況下，資料點可以用K最近鄰域法進行分類，負樣本可以根據與正樣本的實質性差異來確定。

在一些實施例中，系統102可以用正負樣本訓練一個規則模型(例如，一個決策樹規則模型)直到達到第二準確性臨界值，以獲取訓練後的群組標記規則模型。可以為規則模型訓練配置多個參數。例如，可以預設第二準確性臨界值。又例如，可以預設決策樹模型的深度(例如，三層深度以限制複雜度)。再例如，可以預設決策樹的數量，以為決策添加「或」條件(例如，並行決策樹可以表示「或」條件，以及同一決策樹中的分支可以表示「與」條件來確定群組的標記決策)。因此，在「與」和「或」條件下，決策樹模型可以擁有更多的決策靈活性，從而提高決策樹的準確性。

本領域技術人員會理解，決策樹規則模型可以基於決策樹學習，其使用決策樹作為預測模型。預測模型可以將關於專案的觀察值(例如，平臺使用者的資料欄值)映射為專案目標值(例如，標籤C1)的結論值。通過用正樣本(例如，應該是標籤C1的樣本)以及負樣本(例如，不應該是標籤C1的樣本)訓練，訓練後的規則模型可以包括邏輯演算法以自動標記其他樣本。邏輯演算法可以至少部分地基於在每個樹的各個層或深度做出的決策來整合。如圖3D所示，訓練後的群組標記規則模型可以判斷是否將第一標籤指定，分配給多個使用者中的一個或多個，並且標記一個或多個平臺使用者及/或添加新使用者到平臺中。圖3D的描述意圖是說明性的，並且可以根據實施方式以各種方式修改。例如將訓練後的規則模型應用於平臺使用者，系統102可以將「使用者C」和「使用者D」標記為「C2」，以及將「使用者E」標記為「C1」。進一步，訓練模型還可以包括作為關鍵資料欄的「城市」，其權重比「支付」更重要。因此，即使新使用者尚未與平臺交易，系統102可以將新使用者「使用者F」標記為「C1」。因此，群組標記規則可用於分析現有資料以及預測新資料的群組標籤。

回到圖2部分，在訓練群組標記規則並應用於平臺資料的情況下，計算裝置111(或計算裝置110)可以通過發送查詢208以及接收已標記的使用者210來查看群組標籤。進一步，計算裝置可以經由查詢208，例如，通過糾正一個或多個使用者的標籤，改進訓練後的群組標記規則模型。如果計算裝置120使用系統102登記新使用者，則「全域標記規則」可以應用於對新使用者進行預先標記。

鑒於以上所述，「本地標記規則」具有高可靠性和準確性，可通過與其他平臺資料進行比較獲取「全域標記規則」。「全域標記規則」整合了「本地標記規則」中定義的並適用於整個平臺資料的特徵。此過程可以通過上述學習過程來自動化進行，從而實現分析者無法達到的高效群組標記任務。

圖4A示出了根據本發明的各種實施例的示例性方法400的流程圖。方法400可以在各種環境(包括，例如圖1的環境100)中實施。下述方法400的操作僅是示例性的。取決於實施方式，示例方法400可以包括額外的、更少的或其他替代性步驟，這些步驟可以按各種順序或並列執行。示例方法400可以在各種計算系統或裝置中實現，所述計算系統或裝置包括一個或多個伺服器中的一個或多個處理器。

在402處，使用者的第一子集可以從多個使用者中獲取，並且可以獲取與使用者的第一子集相關的一個或多個第一標籤。多個使用者以及多個相關資料欄可以是部分平臺資料。第一子集可從分析者或操作者中第一手獲得。在404，可以分別為一個或多個相關資料欄確定使用者的第一子集和至少部分所述多個使用者之間的至少一個差值。在406，響應於確定差值超過第一臨界值，對應資料欄可以確定為關鍵資料欄。對於一個或多個相關資料欄可以執行406以獲取一個或多個關鍵資料欄。在408，可以獲取與使用者的第一子集相關的一個或多個對應關鍵資料欄的資料作為正樣本。在410，基於一個或多個關鍵資料欄，可以從多個使用者中獲取使用者的第二子集，並且可以從平臺資料中獲取相關資料作為負樣本。負樣本可能與正樣本實質上不同，並且可以如上所述獲取。在412，規則模型可以用正負樣本進行訓練以達到第二準確性臨界值，以獲取訓練後的群組標記規則模型。訓練後的群組標記規則模型可以用於標記多個使用者以及添加新使用者到所述多個使用者的，從而使使用者可以自動按期望的類別進行組織。

圖4B示出了根據本發明的各種實施例的示例性方法420的流程圖。方法420可以在各種環境(包括，例如圖1的環境100)中實現。下述流程/方法的操作僅是示例性的。取決於實施方式，示例方法420可以包括額外的、更少的或其他替代性步驟，這些步驟可以按各種順序或並列執行。示例方法420可以在各種計算系統或裝置中實現，所述計算系統或裝置包括一個或多個伺服器中的一個或多個處理器。

在422，可以獲取平臺的多個實體的第一子集。實體的第一子集用第一標籤標記，平臺資料包括多個實體的一個或多個資料欄的資料。在424，確定所述實體的第一子集與所述多個實體中一些其他實體的第一子集的一個或多個資料欄的資料之間的至少一個差值。在426，響應於確定所述差值超過第一臨界值，獲取與所述實體的第一子集相關的對應資料作為正樣本，以及獲取與所述多個實體的第二子集相關的對應資料作為負樣本。負樣本可能與正樣本實質上不同，並且可以如上所述獲取。在428，用正樣本和負樣本訓練規則模型以獲取訓練後的群組標記規則模型。訓練後的群組標記規則模型判斷現有的或新的實體是否有資格獲得第一標籤。

本文所描述的技術是由一個或多個專用計算裝置實現的。專用計算裝置可以是硬連線的，以執行技術，或可以包括電路或數位電子裝置，如一個或多個應用程式-特定積體電路(ASIC)或現場可程式閘陣列(FPGA)，其持續程式設計為執行技術或可以包括一個或多個硬體處理器，其被程式設計為根據程式指令在韌體、記憶體、其他記憶體或組合中執行技術。這種專用計算裝置還可以將定制硬連線邏輯、ASIC或FPGA與定制程式設計結合起來以完成該技術。專用計算裝置可以是臺式電腦系統、伺服器電腦系統、可擕式電腦系統、手持裝置、網路裝置或合併了用於實現這些技術的硬連線及/或程式邏輯的任何其它裝置。計算裝置是一般控制以及由運行系統軟體協調。傳統的運行系統控制以及計畫執行電腦流程，執行記憶體管理，提供檔案系統、網路、I/O 服務以及提供使用者介面功能，例如圖形使用者介面(「GUI」)等等。

圖5是示出了電腦系統500的方塊圖，在該電腦系統500上可以實現在此描述的任何實施例。系統500可以對應於上述系統102。電腦系統500包括用於通信資訊的匯流排502或其他通信機制，與匯流排502連接用於處理資訊的一個或多個硬體處理器504。硬體處理器504可以是，例如，一個或多個通用微處理器。處理器504可以對應於上述的處理器104。

電腦系統500還包括主記憶體506(如隨機存取記憶體(RAM)，快取記憶體及/或其他動態儲存裝置裝置)，該主記憶體506連接到匯流排502，用於儲存資訊以及由處理器504執行的指令。主記憶體506還可以用於在處理器504執行指令期間儲存臨時變數或其他中間資訊。當儲存在可存取處理器504的儲存媒體中時，這種指令將電腦系統500呈現為被定制為執行指令中指定的操作的專用機器。電腦系統500進一步包括一個唯獨記憶體(ROM)508或其他靜態儲存裝置，其連接至匯流排502，用於為處理器504儲存靜態資訊以及指令。提供記憶體510(如磁碟、光碟或USB拇指驅動器(快閃記憶體驅動器)等)，其連接到匯流排502以儲存資訊以及指令。主記憶體506、ROM 508及/或記憶體510可以對應於上述的記憶體106。

電腦系統500可以使用定制硬連線邏輯、一個或多個ASIC或FPGA、韌體及/或程式邏輯(與電腦系統結合使得或程式設計電腦系統500成為專用機器)來實現本文所述的技術。根據一個實施例，此處的技術是由電腦系統500響應於處理器504執行的，處理器504執行包含在主記憶體506中的一個或多個指令的一個或多個序列。這樣的指令可以從另一個儲存媒體(例如記憶體510)讀入主記憶體506。包含在主記憶體506中的指令序列的執行使得處理器504執行本文描述的流程步驟。在替代實施例中，硬連線電路可以代替軟體指令使用或與軟體指令組合使用。

主記憶體506、ROM 508及/或記憶體510可以包括非暫時性儲存媒體。這裡使用的術語「非暫時性媒體」以及類似的術語是指儲存使機器以特定方式運行的資料及/或指令的任何媒體。這類非暫時性媒體可以包括非易失性媒體及/或易失性媒體。非易失性媒體包括，例如光碟或磁碟(如記憶體510)。易失性媒體包括動態記憶體，如主記憶體506。非暫時性媒體的常見形式包括，例如，軟碟、彈性軟碟、硬碟、固態硬碟、磁帶或任何其他磁資料儲存媒體、唯讀光碟記憶體、任何其他光資料儲存媒體、任何具有孔圖案的物理媒體、RAM、PROM、以及EPROM、FLASH-EPROM、NVRAM，任何其他記憶體晶片或盒式記憶體，以及相同的網路版本。

電腦系統500還包括連接至匯流排502的通信介面518。通信介面518提供與一個或多個本地網路連接的一個或多個網路鏈路的雙向資料通信。例如通信介面518可以是整合服務數位網(ISDN)卡、纜線數據機、衛星數據機或數據機，以向對應類型的電話線提供資料通信連接。又例如，通信介面518可以是局部區域網路(區域網路)卡以向相容的區域網路(或與WAN通信的WAN組件)提供資料通信連接。無線鏈路也可能被實現。在任何這樣的實施方式中，通信介面518發送並接收電信號、電磁信號或光信號，所述電信號、電磁信號或光信號攜帶代表各種類型資訊的數位元元資料流程。

電腦系統500可以通過網路、網路連結以及通信介面518發送訊息以及接收包括程式碼的資料。在網際網路示例中，伺服器可以通過網際網路、ISP、本地網路以及通信介面518發送應用程式的請求代碼。

當代碼被接收時，接收到的代碼可以由處理器504執行，及/或儲存在記憶體510或其他非易失性記憶體中以供稍後執行。

在前面章節中描述的流程、方法、以及演算法中的每一個都可以體現在代碼模組中並且被代碼模組完全或部分自動化，所述代碼模組由一個或多個電腦系統或電腦處理器(包括電腦硬體)執行。流程以及演算法可部分或全部在應用程式-特定電路中實現。

以上描述的各種特徵以及流程可以彼此獨立地使用，或者可以以各種方式組合。所有可能的組合以及子組合意在落入本發明的範圍內。另外，在某些實現中可能會省略某些方法或流程方塊。這裡描述的方法以及流程也不限於任何特定順序，以及與其相關的方塊或陳述可以以適當的其他順序執行。例如，所描述的方塊或陳述可以以不同於具體揭露的順序執行，或者多個方塊或陳述可以組合在單個方塊或陳述中。示例方塊或陳述可以串列、並行或以其他方式執行。方塊或陳述可以添加到所揭露的示例實施例或從所示實施例中移除。這裡描述的示例系統以及部件可以不同於所描述的來配置。與所揭露的示例實施例相比，可以將元素添加、移除或重新排列。

這裡描述的示例方法的各種操作可以至少部分由一個或多個處理器執行，所述處理器臨時配置(例如，通過軟體)或永久用於執行相關操作。無論是暫時還是永久配置，這樣的處理器都可以構成處理器實施的引擎，其運行以執行本文所述的一個或多個操作或功能。

類似地，這裡描述的方法可以至少部分地由處理器實施，以特定的處理器或硬體示例的處理器。例如，方法的至少一些操作可以由一個或多個處理器或處理器實施的引擎執行。此外，還可以運行一個或多個處理器以支援在「雲計算」環境中執行相關操作，或者作為「軟體作為服務」(SaaS)。至少部分操作可以由一組電腦(作為包括處理器的機器的示例)執行，這些操作可以通過網路(例如網際網路)以及通過一個或多個適當的介面存取(例如，應用程式程式介面(API))。

某些操作的性能可以分佈在處理器中，不僅駐留在單個機器中，而且部署在多個機器上。在一些示例實施例中，處理器或處理器實施的引擎可以位元元於單個地理位置(例如，在家庭環境、辦公室環境或伺服器場內)。在其他示例實施例中，處理器或處理器實施的引擎可以分佈在多個地理位置。

在整個說明書中，多個實例可以實現描述為單個實例的組件、操作或結構。雖然一個或多個方法的獨立操作被說明並描述為單獨操作，但是可以同時執行一個或多個獨立操作，並且不要求以所示的循序執行操作。在示例配置中作為單獨組件呈現的結構和功能可以實現為組合結構或組件。類似地，作為單個組件呈現的結構和功能可以被實現為單獨的組件。這些以及其他變型、修改、添加以及改進均落入本文的範圍主題內。

儘管參考具體示例實施例描述了主題的概述，但是在不脫離本發明的實施例的更寬範圍的情況下，可以對這些實施例進行各種修改和改變。本發明主題的這些實施例可單獨地或共同地由術語「發明」指代，僅為了方便，而不打算將該應用程式的範圍自願地限制為任何單個發明或概念(如果披露了多於一個的話)。

本文所示的實施例被足夠詳細地描述以使本領域技術人員能夠實踐所揭露的教導。可以使用其他實施例並由此推斷，使得可以在不脫離本發明的範圍的情況下進行結構以及邏輯替換以及改變。因此，詳細描述不應被視為具有限制意義，以及各種實施例的範圍僅由所附請求項以及這些請求項所授權的等同物的全部範圍來限定。

本文所述及/或附圖中描述的流程圖中的任何流程描述、組件或方塊應理解為潛在地代表用於實現特定邏輯功能的模組、段或代碼部分，其包括一個或多個可執行指令或流程中的步驟。可替換的實現方式包括在這裡描述的範圍實施例中，其中取決於所涉及的功能性，組件或功能可以被刪除或與所示出或討論的順序(包括基本上同時或以相反順序)顛倒地執行，正如本領域技術人員所理解的那樣。

如本文所使用的，術語「或」可以被解釋為包含性或排他性意義。此外，可以為在此描述為單個實例的資源、操作或結構提供多個實例。另外，各種資源、操作、引擎以及資料儲存器之間的界限是任意的，並且在具體說明性配置的上下文中說明瞭特定操作。功能的其他指定，分配被設想為並且可以落入本發明的各種實施例的範圍內。通常，示例配置中作為單獨資源呈現的結構和功能可以實現為組合結構或資源。類似地，作為獨立資源呈現的結構和功能可以被實現為單獨的資源。這些以及其他變型、修改、添加以及改進落入由所附請求項表示的本發明的實施例的範圍內。因此，說明書和附圖被認為是說明性的而不是限制性的。

除非另有特別說明或者在所使用的上下文中可以理解的情況下，否則「可能」、「可以」等條件語言意圖表達某些實施例包括某些特徵、組件及/或步驟，而其他實施例不包括。因此，這種條件語言一般並非旨在暗示一個或多個實施例以任何方式要求特徵、元素及/或步驟，或者一個或多個實施例必然包括用於判斷的邏輯，有或沒有使用者輸入或提示，這些特徵、元素及/或步驟是否包括或是在任何特定實施例中執行。

Claims

一種用於群組標記的計算系統，包括：可存取平臺資料的一個或多個處理器，其中所述平臺資料包括多個使用者以及多個相關資料欄；以及儲存指令的記憶體，當所述指令由一個或多個處理器執行時，使所述計算系統執行：獲取使用者的第一子集以及與使用者的所述第一子集相關的一個或多個第一標籤；分別為相關資料欄中一個或多個資料欄確定使用者的所述第一子集與所述多個使用者中至少部分使用者之間的至少一個差值；回應於確定所述差值超過第一臨界值，確定對應的資料欄作為關鍵資料欄；確定對應的一個或多個關鍵資料欄的資料作為正樣本，所述一個或多個關鍵資料欄與使用者的所述第一子集相關；基於所述一個或多個關鍵資料欄，獲取來自所述平臺資料的使用者的第二子集以及相關資料作為負樣本；以及用所述正樣本和所述負樣本訓練規則模型以獲取訓練後的群組標記規則模型。
如申請專利範圍第1項之系統，其中：所述平臺資料包括與所述多個使用者中的每一個使用者對應的表格資料；以及所述資料欄包括資料維度或資料度量中的至少一個。
如申請專利範圍第1項之系統，其中：所述多個使用者為所述平臺的使用者；所述平臺為車輛資訊平臺；以及所述資料欄包括位置、使用量、交易金額或投訴數量中的至少一個。
如申請專利範圍第1項之系統，其中：獲取使用者的第一子集包括從一個或多個分析者中接收使用者的所述第一子集的辨識符，而無需完全存取所述平臺資料。
如申請專利範圍第1項之系統，其中：在獲取使用者的所述第一子集之前，所述平臺資料不包括所述第一標籤。
如申請專利範圍第1項之系統，其中：所述差值為庫爾貝克-萊伯勒散度。
如申請專利範圍第1項之系統，其中：基於對所述一個或多個關鍵資料欄的相似性測量，使用者的所述第二子集在超過第三臨界值時與使用者的所述第一子集不同。
如申請專利範圍第1項之系統，其中：所述規則模型為決策樹模型。
如申請專利範圍第1項之系統，其中：所述訓練後的群組標記規則模型判斷是否將所述第一標籤分配給所述多個使用者中的一個或多個。
如申請專利範圍第1項之系統，其中：所述指令使所述系統進一步執行：將所述訓練後的群組標記規則模型應用於標記所述多個使用者以及添加新使用者到所述多個使用者中。
一種群組標記方法，包括：從多個使用者中獲取使用者的第一子集以及與使用者的所述第一子集相關的一個或多個第一標籤，其中所述多個使用者和多個相關資料欄是平臺資料的一部分；分別為所述相關資料欄中一個或多個資料欄確定使用者的所述第一子集與所述多個使用者中至少部分使用者之間的至少一個差值；回應於確定所述差值超過第一臨界值，確定對應的資料欄作為關鍵資料欄；確定對應的一個或多個關鍵資料欄的資料作為正樣本，所述一個或多個關鍵資料欄與使用者的所述第一子集相關；基於所述一個或多個關鍵資料欄，獲取來自所述平臺資料的使用者的第二子集以及相關資料作為負樣本；以及用所述正樣本和所述負樣本訓練規則模型以獲取訓練後的群組標記規則模型。
如申請專利範圍第11項之方法，其中：所述平臺資料包括與所述多個使用者中的每一個使用者對應的表格資料；以及所述資料欄包括資料維度或資料度量中的至少一個。
如申請專利範圍第11項之方法，其中：所述多個使用者為所述平臺的使用者；所述平臺為車輛資訊平臺；以及所述資料欄包括位置、使用量、交易金額或投訴數量中的至少一個。
如申請專利範圍第11項之方法，其中：獲取使用者的第一子集包括從一個或多個分析者中接收使用者的所述第一子集的辨識符，而無需完全存取所述平臺資料。
如申請專利範圍第11項之方法，其中：在獲取使用者的所述第一子集之前，所述平臺資料不包括所述第一標籤。
如申請專利範圍第11項之方法，其中：所述差值為庫爾貝克-萊伯勒散度。
如申請專利範圍第11項之方法，其中：基於對所述一個或多個關鍵資料欄的相似性測量，使用者的所述第二子集在超過第三臨界值時與使用者的所述第一子集不同。
如申請專利範圍第11項之方法，其中：所述規則模型為決策樹模型。
如申請專利範圍第11項之方法，其中：所述方法進一步包括：將所述訓練後的群組標記規則模型應用於標記所述多個使用者和添加新使用者到所述多個使用者中。
一種群組標記方法，包括：獲取平臺的多個實體的第一子集，其中實體的所述第一子集用第一標籤標記，且平臺資料包括所述多個實體的一個或多個資料欄的資料；確定實體的所述第一子集與所述多個實體中一些其他實體的一個或多個資料欄中資料之間的至少一個差值；回應於確定所述差值超過第一臨界值，獲取與實體的所述第一子集相關的對應資料作為正樣本，以及獲取與所述多個實體的第二子集相關的對應資料作為負樣本；以及用所述正樣本和所述負樣本訓練規則模型以獲取訓練後的群組標記規則模型，其中所述訓練後的群組標記規則模型判斷現有或新實體是否有資格獲取所述第一標籤。