TW201935344A

TW201935344A - 一種獲取多標籤使用者肖像的方法和裝置

Info

Publication number: TW201935344A
Application number: TW107146609A
Authority: TW
Inventors: 張雅淋; 李龍飛
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2018-02-13
Filing date: 2018-12-22
Publication date: 2019-09-01
Also published as: CN108229590B; CN108229590A; TWI693567B; WO2019157928A1

Abstract

本說明書實施例揭露了一種訓練使用者肖像分類器的方法和裝置以及獲取多標籤使用者肖像的方法和裝置。所述訓練方法包括：獲取第一組使用者的各自的第一特徵向量；獲取所述第一組使用者各自的第一標籤的值；以所述第一組使用者各自的第一特徵向量和第一標籤的值的集合作為第一訓練集，訓練第一分類器；將所述第一組使用者各自的第一特徵向量和第一標籤的值組合，以獲取所述第一組使用者各自的第二特徵向量；獲取所述第一組使用者各自的第二標籤的值；以及以所述第一組使用者各自的第二特徵向量和第二標籤的值的集合作為第二訓練集，訓練第二分類器。

Description

一種獲取多標籤使用者肖像的方法和裝置

本發明是關於機器學習之領域，具體地，是關於一種訓練使用者肖像分類器的方法和裝置以及一種獲取多標籤使用者肖像的方法和裝置。

隨著網際網路的普及與發展，越來越多的資料可以被各個網際網路運營商收集起來。例如，對於電商網站，可以獲得使用者的購買記錄、瀏覽記錄等資訊；對於搜尋引擎，可以獲得使用者的搜尋記錄、點擊記錄等資訊。為了更好的利用這樣的資訊，以提供更為高效優質的服務，使用者肖像這一技術得到了普遍重視。使用者肖像是根據使用者社會屬性、生活習慣和消費行為等資訊而抽象出的一個標籤化的使用者模型。目前，現有技術中包括基於深度神經網路獲取使用者肖像的方法和基於統計資料獲取使用者肖像的方法等。因此，需要一種更有效的用於獲取多標籤使用者肖像的方案。

本說明書實施例旨在提供一種更有效的獲取多標籤使用者肖像的方案，以解決現有技術中的不足。
為實現上述目的，本說明書一個方面提供一種訓練使用者肖像分類器的方法，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，所述使用者肖像為多標籤使用者肖像，所述方法包括：獲取第一組使用者的各自的第一特徵向量，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；獲取所述第一組使用者各自的第一標籤的值，所述第一標籤的值對應於使用者的第一標籤資訊；以所述第一組使用者各自的第一特徵向量和第一標籤的值的集合作為第一訓練集，訓練第一分類器；將所述第一組使用者各自的第一特徵向量和第一標籤的值組合，以獲取所述第一組使用者各自的第二特徵向量；獲取所述第一組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及以所述第一組使用者各自的第二特徵向量和第二標籤的值的集合作為第二訓練集，訓練第二分類器。
在一個實施例中，在上述訓練鏈式分類器的方法中，所述使用者的資訊包括使用者的標籤資訊。
在一個實施例中，在上述訓練鏈式分類器的方法中，第一標籤是年齡，第二標籤是購買偏好。
在一個實施例中，在上述訓練鏈式分類器的方法中，第一標籤是購買偏好，第二標籤是購買能力。
本說明書另一方面提供一種訓練使用者肖像分類器的方法，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，其中所述第一分類器是通過上述訓練方法訓練獲得的第一分類器，所述使用者肖像為多標籤使用者肖像，所述方法包括：在訓練第一分類器之後，獲取第二組使用者的各自的第一特徵向量，所述第二組使用者包括不屬於所述第一組使用者的至少一個使用者，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；將所述第二組使用者的各自的第一特徵向量輸入所述第一分類器，以獲取所述第二組使用者的各自的第一標籤預測值，將所述第二組使用者中每個使用者的第一特徵向量和第一標籤預測值組合，以獲取第二組使用者各自的第二特徵向量；獲取第二組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及以所述第二組使用者各自的第二特徵向量和第二標籤的值的集合作為第三訓練集，訓練所述第二分類器。
本說明書另一方面提供一種獲取多標籤使用者肖像的方法，包括：基於使用者資訊獲取使用者的第一特徵向量；將所述第一特徵向量輸入通過上述訓練方法訓練獲得的第一分類器，獲得所述使用者的第一標籤預測值，作為所述使用者的第一標籤的值；將所述第一特徵向量與所述第一標籤的值組合，以獲取所述使用者的第二特徵向量；以及將所述第二特徵向量輸入通過上述訓練方法訓練獲得的第二分類器，獲得所述使用者的第二標籤預測值，作為所述使用者的第二標籤的值。
在一個實施例中，上述獲取多標籤使用者肖像的方法還包括，在基於使用者資訊獲取使用者的第一特徵向量之後，在所述使用者資訊中包括所述第一標籤資訊的情況中，以所述第一標籤資訊的對應預設值替換所述第一標籤預測值，作為所述使用者的第一標籤的值。
在一個實施例中，上述獲取多標籤使用者肖像的方法還包括，在獲取所述使用者的第二特徵向量之後，在所述使用者資訊中包括所述第二標籤資訊的情況中，以所述第二標籤資訊的對應預設值替換所述第二標籤預測值，作為所述使用者的第二標籤的值。
本說明書另一方面提供一種訓練使用者肖像分類器的裝置，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，所述使用者肖像為多標籤使用者肖像，所述裝置包括：第一獲取單元，配置為，獲取第一組使用者的各自的第一特徵向量，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；第二獲取單元，配置為，獲取所述第一組使用者各自的第一標籤的值，所述第一標籤的值對應於使用者的第一標籤資訊；第一訓練單元，配置為，以所述第一組使用者各自的第一特徵向量和第一標籤的值的集合作為第一訓練集，訓練第一分類器；第三獲取單元，配置為，將所述第一組使用者各自的第一特徵向量和第一標籤的值組合，以獲取所述第一組使用者各自的第二特徵向量；第四獲取單元，配置為，獲取所述第一組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及第二訓練單元，配置為，以所述第一組使用者各自的第二特徵向量和第二標籤的值的集合作為第二訓練集，訓練第二分類器。
本說明書另一方面提供一種訓練使用者肖像分類器的裝置，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，其中所述第一分類器是通過上述訓練方法訓練獲得的第一分類器，所述使用者肖像為多標籤使用者肖像，所述裝置包括：第五獲取單元，配置為，獲取第二組使用者的各自的第一特徵向量，所述第二組使用者包括不屬於所述第一組使用者的至少一個使用者，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；輸入單元，配置為，將所述第二組使用者的各自的第一特徵向量輸入所述第一分類器，以獲取所述第二組使用者的各自的第一標籤預測值；組合單元，配置為，將所述第二組使用者中每個使用者的第一特徵向量和第一標籤預測值組合，以獲取第二組使用者各自的第二特徵向量；第六獲取單元，配置為，獲取第二組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及第三訓練單元，配置為，以所述第二組使用者各自的第二特徵向量和第二標籤的值的集合作為第三訓練集，訓練所述第二分類器。
本說明書另一方面提供一種獲取多標籤使用者肖像的裝置，包括：第一獲取單元，配置為，基於使用者資訊獲取使用者的第一特徵向量；第一輸入單元，配置為，將所述第一特徵向量輸入通過上述訓練方法訓練獲得的第一分類器，獲得所述使用者的第一標籤預測值，作為所述使用者的第一標籤的值；第二獲取單元，配置為，將所述第一特徵向量與所述第一標籤的值組合，以獲取所述使用者的第二特徵向量；以及第二輸入單元，配置為，將所述第二特徵向量輸入通過上述訓練方法訓練獲得的第二分類器，獲得所述使用者的第二標籤預測值，作為所述使用者的第二標籤的值。
通過根據本說明書實施例的用於獲取多標籤使用者肖像的上述方案，使得對於使用者肖像的各標籤的學習更為準確可靠，也使得獲取的多標籤使用者肖像更加精確。

下面將結合附圖描述本說明書實施例。
圖1示出根據本說明書實施例的系統100的示意圖。如圖1所示，系統100包括分類器鏈11。在一個實施例中，分類器鏈11中包括多個分類器C_j , j = 1 … n，每個分類器C_j 對應於使用者的一個標籤，這些n個分類器串聯起來形成一條鏈。分類器C_j 可以基於決策樹、單純貝葉斯、支援向量機、關聯規則學習、神經網路、遺傳演算法中的一種演算法，所述n個分類器C_j 可以基於相同的演算法，也可以基於不同的演算法。
在一個實施例中，如圖1所示，分類器鏈11包括4個分類器C1、C2、C3和C4。例如，分類器C1是對應於性別標籤的分類器，分類器C2是對應於年齡標籤的分類器，分類器C3是對應於購買偏好標籤的分類器，以及分類器C4是對應於購買能力的分類器。
在訓練分類器鏈11時，首先，向分類器C1輸入第一訓練集t1，該訓練集t1包括對應於各個使用者的資訊的多個特徵向量x₁ 和各個使用者的標籤值λ₁ 。在C1為性別分類器的情況中，標籤值λ₁ 對應使用者於性別。以t1訓練C1獲得對應於性別標籤的分類器C1。之後，向分類器C2輸入訓練集t2。如圖中所示，該訓練集t2包括對應於各個使用者的資訊的多個特徵向量x₂ 和各個使用者的標籤值λ₂ 。在C2為年齡分類器的情況中，標籤值λ₂ 對應於使用者年齡段。所述特徵向量x₂ 除了包括上述特徵向量x₁ 之外，還包括各個使用者的標籤值λ₁ ，即對應於不同性別的值。以訓練集t2訓練C2，使得將對使用者年齡的分類與使用者的性別標籤資訊關聯起來。在訓練後面的分類器C3和C4時，以與訓練C2相同的方式訓練，即，在t3中的特徵向量x₃ 中包括x₂ 和λ₂ ，在t4中的特徵向量x₄ 中包括x₃ 和λ₃ ，從而將使用者的各個標籤關聯起來。使得對於樣本標籤的學習更加準確可靠。例如，在C3是購買偏好分類器的情況中，標籤λ₃ 對應於使用者購買偏好，輸入C3的特徵向量x₃ 除包括C2中的特徵向量x₂ 之外，還包括標籤值λ₂ ，即使用者年齡標籤值。
在對四個分類器C1-C4都訓練結束之後，即，將分類器鏈11訓練為一個多標籤分類模型，可將其用於對未知標籤的使用者進行分類。如圖1所示，通過將未知標籤的使用者的初始資訊以特徵向量x₁ ’的形式輸入C1，通過C1對使用者資訊進行分類，獲得使用者的性別標籤預測值λ₁ ’。C1將使用者資訊x₁ ’和λ₁ ’輸入至C2，從而C2基於使用者資訊x₁ ’和λ₁ ’進行分類，獲得使用者的年齡標籤預測值λ₂ ’。之後，以與C2中相同的方式，分類器C3會從上一個分類器C2接收其特徵向量x₂ ’和λ₂ ’，從而基於x₂ ’和λ₂ ’進行分類，獲得購買偏好標籤預測值λ₃ ’。分類器C4會從上一個分類器C3接收其特徵向量x₃ ’和λ₃ ’，從而基於x₃ ’和λ₃ ’進行分類，獲得購買能力標籤預測值λ₄ ’，從而可以獲得使用者肖像標籤集{λ₁ ’、λ₂ ’、λ₃ ’、λ₄ ’}。
下面結合本說明書的具體實例描述根據本說明書實施例的訓練鏈式分類器的方法和獲取多標籤使用者肖像的方法。
圖2示出了根據本說明書實施例的一種訓練使用者肖像分類器的方法，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，所述使用者肖像為多標籤使用者肖像。所述方法包括：在步驟S21，獲取第一組使用者的各自的第一特徵向量，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；在步驟S22，獲取所述第一組使用者各自的第一標籤的值，所述第一標籤的值對應於使用者的第一標籤資訊；在步驟S23，以所述第一組使用者各自的第一特徵向量和第一標籤的值的集合作為第一訓練集，訓練第一分類器；在步驟S24，將所述第一組使用者各自的第一特徵向量和第一標籤的值組合，以獲取所述第一組使用者各自的第二特徵向量；在步驟S25，獲取所述第一組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及在步驟S26，以所述第一組使用者各自的第二特徵向量和第二標籤的值的集合作為第二訓練集，訓練第二分類器。
首先，在步驟S21，獲取第一組使用者的各自的第一特徵向量，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊。該第一組使用者包括多個使用者，例如包括幾萬個規模的使用者。該第一特徵向量是一個列向量，其中的元素對應於使用者的各個資訊字段的值。使用者資訊可包括使用者原始登錄資訊，如使用者的註冊資訊：手機、電子信箱、城市等。使用者資訊還可以包括使用者的操作歷史資訊，如搜尋和點擊記錄，該搜尋和點擊記錄中例如包括商品的描述資訊（商品類別、價格、是否降價）、商品廣告、優惠活動推廣等。使用者資訊還可以包括使用者標籤資訊，例如，性別、年齡等。
在獲取使用者資訊之後，通過將使用者的相應資訊轉換成對應的數值形式，從而將這些數值組成一個特徵向量。例如，可以將使用者資訊中的城市名轉換成預先設定的對應的數字，例如以1表示北京，以2表示上海等等。為了準確地學習對使用者的分類，使用者資訊中一般包括使用者在一段時間中的操作歷史資訊，例如使用者在半年、三個月、一個月中的搜尋和點擊記錄。
在一個實施例中，使用者資訊為使用者初始資訊，即包括使用者登錄資訊和使用者操作歷史資訊。
然後，在步驟S22，獲取所述第一組使用者各自的第一標籤的值，所述第一標籤的值對應於使用者的第一標籤資訊。該第一標籤與第一分類器是對應的，例如該第一分類器是對使用者性別進行分類的分類器，則第一標籤即為使用者性別。在另一個實施例中，該第一分類器是對使用者年齡進行分類的分類器，則第一標籤為使用者年齡。對於一些標籤，例如性別、年齡等，關於其的標籤資訊可以是使用者自己登錄的，也可以是從以往模型對使用者的分級中直接獲得的。對於一些標籤，例如，購買偏好、購買能力等，關於其的標籤資訊可從以往模型對使用者的分級中獲得。
在一個實施例中，第一分類器是圖1所示的分類器C1，C1例如是性別分類器，因此，第一標籤的值λ₁ 為對應於使用者性別資訊的值。例如，將女性預設為對應於數字0，將男性預設為對應於數字1，從而當λ₁ =0時，表示性別標籤為女性，當λ₁ =1時，表示性別標籤為男性。
在步驟S23，以所述第一組使用者各自的第一特徵向量和第一標籤的值的集合作為第一訓練集，訓練第一分類器。在一個實施例中，第一分類器可以是圖1所示的分類器C1、C2、C3中的任何一個分類器，其訓練集中包括多個使用者的各自的第一特徵向量x_j ，以及多個使用者各自的第一標籤的值λ_j （j=1、2、3）。
在一個實施例中，第一分類器是圖1中的分類器C1，分類器C1例如是對使用者的性別進行分類的分類器。可基於使用者的原始登錄資訊和使用者的點擊記錄建立使用者的特徵向量x₁ ，以使用者的性別（真實性別或根據以往模型預測的性別）對應的值作為第一標籤的值λ₁ ，以多個使用者的特徵向量x₁ 及標籤值λ₁ 的集合訓練該分類器C1，從而使得分類器C1可用於對使用者的性別進行分類。
在步驟S24，將所述第一組使用者各自的第一特徵向量和第一標籤的值組合，以獲取所述第一組使用者各自的第二特徵向量。也就是說，將第一標籤的值作為一個元素加入到第一特徵向量中，從而獲得第二特徵向量。
在一個實施例中，在分類器C1是性別分類器的情況中，將使用者的性別標籤值λ₁ 作為一個元素加入到特徵向量x₁ 中，以用於分類器C2的訓練。
在步驟S25，獲取所述第一組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊。第二標籤與第二分類器對應。例如，第二分類器可以是購買偏好分類器，則第二標籤是使用者的購買偏好。
在一個實施例中，第二分類器是圖1中的分類器C2，例如，其可以是年齡分類器，從而第二標籤為使用者年齡標籤。例如，第二標籤的值λ₂ 可預設為對應於使用者的幾個年齡段，例如，可以預設為，當λ₂ =1時，對應於5-10歲年齡段，當λ₂ =2時，對應於10-20歲年齡段，當λ₂ =3時，對應於20-30歲年齡段，等等。該第二標籤的值所對應的資訊（即年齡資訊）的獲取與上述對第一標籤資訊的獲取相似，在此不再贅述。
在步驟S26，以所述第一組使用者各自的第二特徵向量和第二標籤的值的集合作為第二訓練集，訓練第二分類器。在一個實施例中，第二分類器可以是圖1所示的分類器C2、C3、C4中的任何一個分類器，其各自訓練集中包括多個使用者的各自的第二特徵向量x_j ，以及多個使用者各自的第二標籤的值λ_j ，而所述第二特徵向量x_j 中包括第一分類器對應的標籤值λ_j-1 ，其中j=2、3、4。
在一個實施例中，第二分類器是圖1中的分類器C2，其例如為對使用者年齡進行分類的分類器。通過在使用者的特徵向量x₁ 中增加對應於性別的元素（即，λ₁ ），而獲取使用者的特徵向量x₂ ，以使用者的年齡對應的值（即，λ₂ ）作為第二標籤的值，以多個使用者的特徵向量x₂ 及標籤值λ₂ 的集合訓練該分類器C2，從而使得分類器C2可用於對使用者的年齡進行分類。從而，將對分類器C2（即，年齡分類器）的訓練與性別標籤相關聯。
在一個實施例中，上述鏈式分類器還包括如圖1所示的分類器C3，分類器C3例如是對使用者購買偏好進行分類的分類器。從而，分類器C3對應的使用者標籤為使用者購買偏好。可根據實際應用情況，對購買偏好標籤值λ₃ 進行賦值。例如，可以根據不同人群的購買特點，將購買偏好分為生活用品、電子產品、奢侈品、學習用品等幾大類。並且通過將不同類的購買偏好對應於預定數值，而對λ₃ 賦值。例如，生活用品對應於數字1，電子產品對應於數字2，從而，當λ₃ =1時，代表使用者的購買偏好是生活用品。
在訓練C3時，通過在分類器C2對應的特徵向量x₂ 中增加對應於年齡的元素（λ₂ ），從而獲取使用者的特徵向量x₃ 。並且，獲取使用者的購買偏好資訊以獲取標籤值λ₃ 。以多個使用者的特徵向量x₃ 及標籤值λ₃ 的集合訓練該分類器C3，從而使得分類器C3可用於對使用者的購買偏好進行分類。在該訓練中，將對分類器C3的訓練與分類器C2對應的標籤（即年齡）相關聯。另外，由於在分類器C2對應的特徵向量x₂ 中包括分類器C1對應的標籤（即，性別），從而還將對分類器C3的訓練還與性別標籤相關聯。而在實際中，使用者的購買偏好顯然是與性別和年齡相關聯的，因此，根據本說明書實施例的訓練方法優化了對使用者資訊的充分利用，使得對多標籤使用者肖像的預測更加準確。
在一個實施例中，上述鏈式分類器還包括如圖1所示的分類器C4，分類器C4例如是對使用者購買能力進行分類的分類器。從而，分類器C4對應的使用者標籤為使用者購買能力。可根據實際應用情況，對購買能力標籤值λ₄ 進行賦值。例如，可以將購買能力分為低下、中等、較高、高等幾大類。並且通過將不同類的購買能力對應於預定數值，而對λ₄ 進行賦值，例如，低下對應於數字1，中等對應於數字2，等等，從而，當λ₄ =2時，代表使用者的購買能力是中等水平。
在訓練C4時，通過在分類器C3對應的特徵向量x₃ 中增加對應於購買偏好標籤值（λ₃ ）的元素，從而獲取使用者的特徵向量x₄ 。並且，獲取使用者的購買能力資訊以獲取標籤值λ₄ 。以多個使用者的特徵向量x₄ 及標籤值λ₄ 的集合訓練該分類器C4，從而使得分類器C4可用於對使用者的購買偏好進行分類。在該訓練中，將對分類器C3的訓練與使用者初始資訊、性別、年齡以及購買偏好相關聯，從而優化了對使用者資訊的充分利用，使得對多標籤使用者肖像的預測更加準確。
在一個實施例中，在訓練包括多個分類器的鏈式分類器中，基於標籤學習的難易程度確定標籤的學習順序，即，先學習容易學習的標籤，再學習較難一些的標籤。例如，在包括上述C1、C2、C3和C4的鏈式分類器中，性別標籤只有兩個分類，因此，性別是比較容易學習的，因此，將性別分類器放在最先學習的分類器C1的位置。年齡標籤的分類比較少，並且也比較容易確定，因此放在分類器C2的位置。購買偏好的分類選項比較多，使用者的購買偏好較不容易確定，並且使用者的購買偏好還與使用者的性別、年齡都有關聯，因此，將購買偏好分類器置於分類器C3的位置。而使用者購買能力與使用者的性別、年齡和購買偏好都相關，因此，將購買能力標籤置於分類器C4的位置。
在一個實施例中，所獲取的部分使用者的部分標籤資訊是缺失的。例如，第二組使用者的性別標籤資訊缺失，該第二組使用者包括至少一個使用者，並且該至少一個使用者不屬於上述第一組使用者。在該情況中，在上述已經利用第一組使用者的特徵向量x₁ 和性別標籤值λ₁ 訓練了性別分類器C1之後，將第二組使用者各自的特徵向量x₁ ’分別輸入分類器C1，獲得第二組使用者各自的性別標籤預測值λ₁ ’。將性別標籤預測值λ₁ ’作為一個元素加入特徵向量x₁ ’，從而獲得第二組使用者各自的特徵向量x₂ ’。之後，可以以第二組使用者各自的特徵向量x₂ ’和年齡標籤值λ₂ 的集合作為訓練集，訓練年齡分類器C2。並且，該包括性別標籤預測值λ₁ ’的第二組使用者樣本還可以用於訓練後續的使用者購買偏好分類器C3、購買能力分類器C4等。
在一個實施例中，分類器鏈11中包括多個分類器C_j , j = 1 … n，每個分類器C_j 對應於使用者的一個標籤，這些n個分類器串聯起來形成一條鏈。其中，與上述實施例類似地，對每個分類器C_j 的訓練都與其之前的分類器C₁ 、C₂ 、、、C_j-1 所對應的標籤值相關聯，從而優化了對使用者資訊的充分利用，使得對多標籤使用者肖像的預測更加準確。
圖3示出了根據本說明書實施例的一種獲取多標籤使用者肖像的方法，包括：在步驟S31，基於使用者資訊獲取使用者的第一特徵向量；在步驟S32，將所述第一特徵向量輸入通過上述訓練方法訓練獲得的第一分類器，獲得所述使用者的第一標籤預測值，作為所述使用者的第一標籤的值；在步驟S33，將所述第一特徵向量與所述第一標籤的值組合，以獲取所述使用者的第二特徵向量；以及在步驟S34，將所述第二特徵向量輸入通過上述訓練方法訓練獲得的第二分類器，獲得所述使用者的第二標籤預測值，作為所述使用者的第二標籤的值。
例如，第一分類器是上述性別分類器C1，第二分類器是上述年齡分類器C2。首先，基於使用者資訊，即使用者登錄資訊和使用者操作歷史資訊，獲取對應於分類器C1的特徵向量x₁ 。將特徵向量x₁ 輸入分類器C1，從而獲得使用者的性別標籤預測值λ₁ ’，作為性別標籤值λ₁ 。將特徵向量x₁ 與性別標籤預測值λ₁ 組合，即，將λ₁ 作為一個元素加入到特徵向量x₁ 中，從而獲得使用者的特徵向量x₂ 。將特徵向量x₂ 輸入上述年齡分類器C2，從而獲得使用者的年齡標籤預測值λ₂ ’，作為年齡標籤值λ₂ 。
在一個實施例中，還可以將獲得的年齡標籤值λ₂ 作為元素加入特徵向量x₂ 中，從而獲得使用者的特徵向量x₃ ，將特徵向量x₃ 輸入到上述購買偏好分類器C3中，從而可獲得使用者的購買偏好標籤預測值λ₃ ’，作為使用者的購買偏好標籤值λ₃ 。
在一個實施例中，還可以將獲得的購買偏好標籤預測值λ₃ ’作為元素加入特徵向量x₃ 中，從而獲得使用者的特徵向量x₄ ，將特徵向量x₄ 輸入到上述購買能力分類器C4中，從而可獲得使用者的購買能力標籤預測值λ₄ ’，作為使用者的購買能力標籤值λ₄ 。
從而，通過根據本說明書實施例的獲取多標籤使用者肖像的方法，可以獲取使用者肖像的標籤集{λ₁ ’、λ₂ ’、λ₃ ’、λ₄ ’}。在該使用者肖像標籤集{λ₁ ’、λ₂ ’、λ₃ ’、λ₄ ’}中，年齡標籤預測值λ₂ ’的獲得與使用者初始資訊x1和性別標籤值λ₁ 相關聯，購買偏好標籤預測值λ₃ ’的獲得與使用者初始資訊x1、性別標籤值λ₁ 和年齡標籤值λ₂ 相關聯，以及購買能力標籤預測值λ₄ ’的獲得與使用者初始資訊x1、性別標籤值λ₁ 、年齡標籤值λ₂ 和購買偏好標籤值λ₃ 相關聯。從而在預測使用者標籤時充分考慮了使用者各個標籤之間的關聯關係。
在一個實施例中，使用者初始資訊中可能包括部分使用者標籤資訊。例如，使用者的登錄資訊中可能包括年齡、性別資訊等，在該情況中，使用標籤資訊的對應預設值替換標籤預測值，作為使用者的標籤值。例如，在使用者登錄資訊中包括年齡的情況中，在使用者肖像標籤集中，使用該年齡對應的年齡段的對應預設值替換年齡預測值，作為使用者的年齡標籤值。
圖4示出了根據本說明書實施例的訓練使用者肖像分類器的裝置400，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，所述使用者肖像為多標籤使用者肖像。所述裝置400包括：第一獲取單元41，配置為，獲取第一組使用者的各自的第一特徵向量，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；第二獲取單元42，配置為，獲取所述第一組使用者各自的第一標籤的值，所述第一標籤的值對應於使用者的第一標籤資訊；第一訓練單元43，配置為，以所述第一組使用者各自的第一特徵向量和第一標籤的值的集合作為第一訓練集，訓練第一分類器；第三獲取單元44，配置為，將所述第一組使用者各自的第一特徵向量和第一標籤的值組合，以獲取所述第一組使用者各自的第二特徵向量；第四獲取單元45，配置為，獲取所述第一組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及第二訓練單元46，配置為，以所述第一組使用者各自的第二特徵向量和第二標籤的值的集合作為第二訓練集，訓練第二分類器。
在一個實施例中提供一種訓練使用者肖像分類器的裝置，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，其中所述第一分類器是通過上述訓練方法訓練獲得的第一分類器，所述使用者肖像為多標籤使用者肖像，所述裝置包括：第五獲取單元，配置為，在訓練第一分類器之後，獲取第二組使用者的各自的第一特徵向量，所述第二組使用者包括不屬於所述第一組使用者的至少一個使用者，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；輸入單元，配置為，將所述第二組使用者的各自的第一特徵向量輸入所述第一分類器，以獲取所述第二組使用者的各自的第一標籤預測值，作為其第一標籤的值；組合單元，配置為，將所述第二組使用者中每個使用者的第一特徵向量和第一標籤的值組合，以獲取第二組使用者各自的第二特徵向量；第六獲取單元，配置為，獲取第二組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及第三訓練單元，配置為，以所述第二組使用者各自的第二特徵向量和第二標籤的值的集合作為第三訓練集，訓練所述第二分類器。
圖5示出了根據本說明書實施例的獲取多標籤使用者肖像的裝置500，包括：第一獲取單元51，配置為，基於使用者資訊獲取使用者的第一特徵向量；第一輸入單元52，配置為，將所述第一特徵向量輸入通過上述訓練方法訓練獲得的第一分類器，獲得所述使用者的第一標籤預測值，作為所述使用者的第一標籤的值；第二獲取單元53，配置為，將所述第一特徵向量與所述第一標籤的值組合，以獲取所述使用者的第二特徵向量；以及第二輸入單元54，配置為，將所述第二特徵向量輸入通過上述訓練方法訓練獲得的第二分類器，獲得所述使用者的第二標籤預測值，作為所述使用者的第二標籤的值。
在一個實施例中，所述獲取多標籤使用者肖像的裝置還包括第三獲取單元，配置為，在獲取使用者的第一特徵向量之後，以所述第一標籤資訊對應的預設值替換所述第一標籤預測值，作為所述使用者的第一標籤的值。
在一個實施例中，所述獲取多標籤使用者肖像的裝置還包括第四獲取單元，配置為，在獲取所述使用者的第二特徵向量之後，以所述第二標籤資訊對應的預設值替換所述第二標籤預測值，作為所述使用者的第一標籤的值。
通過根據本說明書實施例的用於獲取多標籤使用者肖像的上述方案，使得在鏈式的多個分類器之間傳遞使用者的標籤資訊，考慮了使用者各個標籤之間的關聯性，使得對於使用者肖像的各標籤的學習更為準確可靠，也使得獲取的多標籤使用者肖像更加精確。
本領域普通技術人員應該還可以進一步意識到，結合本文中所揭露的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、電腦軟體或者二者的結合來實現，為了清楚地說明硬體和軟體的可互換性，在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執軌道，取決於技術方案的特定應用和設計約束條件。本領域普通技術人員可以對每個特定的應用來使用不同方法來實現所描述的功能，但是這種實現不應認為超出本發明的範圍。
結合本文中所揭露的實施例描述的方法或演算法的步驟可以用硬體、處理器執軌道的軟體模組，或者二者的結合來實施。軟體模組可以置於隨機存取記憶體（RAM）、內部記憶體、唯讀記憶體（ROM）、電可程式化ROM、電可抹除可程式化ROM、暫存器、硬碟、可移動式磁碟、CD-ROM、或技術領域內所公知的任意其它形式的儲存媒體中。
以上所述的具體實施方式，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施方式而已，並不用於限定本發明的保護範圍，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

100‧‧‧系統

21‧‧‧步驟

22‧‧‧步驟

23‧‧‧步驟

24‧‧‧步驟

25‧‧‧步驟

26‧‧‧步驟

31‧‧‧步驟

32‧‧‧步驟

33‧‧‧步驟

34‧‧‧步驟

400‧‧‧裝置

41‧‧‧第一獲取單元

42‧‧‧第二獲取單元

43‧‧‧第一訓練單元

44‧‧‧第三獲取單元

45‧‧‧第四獲取單元

46‧‧‧第二訓練單元

500‧‧‧裝置

51‧‧‧第一獲取單元

52‧‧‧第一輸入單元

53‧‧‧第二獲取單元

54‧‧‧第二輸入單元

通過結合附圖描述本說明書實施例，可以使得本說明書實施例更加清楚：

圖1示出根據本說明書實施例的系統100的示意圖；

圖2示出了根據本說明書實施例的一種訓練鏈式分類器的方法；

圖3示出了根據本說明書實施例的一種獲取多標籤使用者肖像的方法；

圖4示出了根據本說明書實施例的訓練鏈式分類器的裝置400；以及

圖5示出了根據本說明書實施例的獲取多標籤使用者肖像的裝置500。

Claims

一種訓練使用者肖像分類器的方法，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，所述使用者肖像為多標籤使用者肖像，所述方法包括：獲取第一組使用者的各自的第一特徵向量，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；獲取所述第一組使用者各自的第一標籤的值，所述第一標籤的值對應於使用者的第一標籤資訊；以所述第一組使用者各自的第一特徵向量和第一標籤的值的集合作為第一訓練集，訓練第一分類器；將所述第一組使用者各自的第一特徵向量和第一標籤的值組合，以獲取所述第一組使用者各自的第二特徵向量；獲取所述第一組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及以所述第一組使用者各自的第二特徵向量和第二標籤的值的集合作為第二訓練集，訓練第二分類器。
根據請求項1所述的訓練使用者肖像分類器的方法，其中所述使用者的資訊包括使用者的標籤資訊。
根據請求項1所述的訓練使用者肖像分類器的方法，其中所述第一標籤是年齡，所述第二標籤是購買偏好。
根據請求項1所述的訓練使用者肖像分類器的方法，其中所述第一標籤是購買偏好，所述第二標籤是購買能力。
一種訓練使用者肖像分類器的方法，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，其中所述第一分類器是通過根據請求項1至4中任一項所述的方法訓練獲得的第一分類器，所述使用者肖像為多標籤使用者肖像，所述方法包括：獲取第二組使用者的各自的第一特徵向量，所述第二組使用者包括不屬於所述第一組使用者的至少一個使用者，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；將所述第二組使用者的各自的第一特徵向量輸入所述第一分類器，以獲取所述第二組使用者的各自的第一標籤預測值；將所述第二組使用者中每個使用者的第一特徵向量和第一標籤預測值組合，以獲取第二組使用者各自的第二特徵向量；獲取第二組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及以所述第二組使用者各自的第二特徵向量和第二標籤的值的集合作為第三訓練集，訓練第二分類器。
一種獲取多標籤使用者肖像的方法，包括：基於使用者資訊獲取使用者的第一特徵向量；將所述第一特徵向量輸入根據請求項1至4中任一項所述的方法訓練獲得的第一分類器，獲得所述使用者的第一標籤預測值，作為所述使用者的第一標籤的值；將所述第一特徵向量與所述第一標籤的值組合，以獲取所述使用者的第二特徵向量；以及將所述第二特徵向量輸入根據請求項1至5中任一項所述的方法訓練獲得的第二分類器，獲得所述使用者的第二標籤預測值，作為所述使用者的第二標籤的值。
根據請求項6所述的獲取多標籤使用者肖像的方法，還包括，在基於使用者資訊獲取使用者的第一特徵向量之後，在所述使用者資訊中包括所述第一標籤資訊的情況中，以所述第一標籤資訊的對應預設值替換所述第一標籤預測值，作為所述使用者的第一標籤的值。
根據請求項6所述的獲取多標籤使用者肖像的方法，還包括，在獲取所述使用者的第二特徵向量之後，在所述使用者資訊中包括所述第二標籤資訊的情況中，以所述第二標籤資訊的對應預設值替換所述第二標籤預測值，作為所述使用者的第二標籤的值。
一種訓練使用者肖像分類器的裝置，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，所述使用者肖像為多標籤使用者肖像，所述裝置包括：第一獲取單元，配置為，獲取第一組使用者的各自的第一特徵向量，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；第二獲取單元，配置為，獲取所述第一組使用者各自的第一標籤的值，所述第一標籤的值對應於使用者的第一標籤資訊；第一訓練單元，配置為，以所述第一組使用者各自的第一特徵向量和第一標籤的值的集合作為第一訓練集，訓練第一分類器；第三獲取單元，配置為，將所述第一組使用者各自的第一特徵向量和第一標籤的值組合，以獲取所述第一組使用者各自的第二特徵向量；第四獲取單元，配置為，獲取所述第一組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及第二訓練單元，配置為，以所述第一組使用者各自的第二特徵向量和第二標籤的值的集合作為第二訓練集，訓練第二分類器。
根據請求項9所述的訓練使用者肖像分類器的裝置，其中所述使用者的資訊包括使用者的標籤資訊。
根據請求項9所述的訓練使用者肖像分類器的裝置，其中所述第一標籤是年齡，所述第二標籤是購買偏好。
根據請求項9所述的訓練使用者肖像分類器的裝置，其中所述第一標籤是購買偏好，所述第二標籤是購買能力。
一種訓練使用者肖像分類器的裝置，所述分類器是鏈式分類器，其包括第一分類器和第二分類器，其中所述第一分類器是通過根據請求項1至4中任一項所述的方法訓練獲得的第一分類器，所述使用者肖像為多標籤使用者肖像，所述裝置包括：第五獲取單元，配置為，獲取第二組使用者的各自的第一特徵向量，所述第二組使用者包括不屬於所述第一組使用者的至少一個使用者，所述第一特徵向量對應於使用者的資訊，所述資訊包括使用者的註冊資訊、以及使用者的操作歷史資訊；輸入單元，配置為，將所述第二組使用者的各自的第一特徵向量輸入所述第一分類器，以獲取所述第二組使用者的各自的第一標籤預測值；組合單元，配置為，將所述第二組使用者中每個使用者的第一特徵向量和第一標籤預測值組合，以獲取第二組使用者各自的第二特徵向量；第六獲取單元，配置為，獲取第二組使用者各自的第二標籤的值，所述第二標籤的值對應於使用者的第二標籤資訊，並且使用者的第二標籤與使用者的第一標籤相關聯；以及第三訓練單元，配置為，以所述第二組使用者各自的第二特徵向量和第二標籤的值的集合作為第三訓練集，訓練所述第二分類器。
一種獲取多標籤使用者肖像的裝置，包括：第一獲取單元，配置為，基於使用者資訊獲取使用者的第一特徵向量；第一輸入單元，配置為，將所述第一特徵向量輸入根據請求項1至4中任一項所述的方法訓練獲得的第一分類器，獲得所述使用者的第一標籤預測值，作為所述使用者的第一標籤的值；第二獲取單元，配置為，將所述第一特徵向量與所述第一標籤的值組合，以獲取所述使用者的第二特徵向量；以及第二輸入單元，配置為，將所述第二特徵向量輸入根據請求項1至5中任一項所述的方法訓練獲得的第二分類器，獲得所述使用者的第二標籤預測值，作為所述使用者的第二標籤的值。
根據請求項14所述的獲取多標籤使用者肖像的裝置，還包括第一替換單元，配置為，在基於使用者資訊獲取使用者的第一特徵向量之後，在所述使用者資訊中包括所述第一標籤資訊的情況中，以所述第一標籤資訊的對應預設值替換所述第一標籤預測值，作為所述使用者的第一標籤的值。
根據請求項14所述的獲取多標籤使用者肖像的裝置，還包括第二替換單元，配置為，在獲取所述使用者的第二特徵向量之後，在所述使用者資訊中包括所述第二標籤資訊的情況中，以所述第二標籤資訊的對應預設值替換所述第二標籤預測值，作為所述使用者的第二標籤的值。