TW201513019A

TW201513019A - 基於用戶行爲的特徵提取、個性化推薦方法和系統

Info

Publication number: TW201513019A
Application number: TW102145369A
Authority: TW
Inventors: Ping Qiao; ming-gang Wu
Original assignee: Alibaba Group Services Ltd
Priority date: 2013-09-25
Filing date: 2013-12-10
Publication date: 2015-04-01
Also published as: JP2016536725A; EP3049912A4; US10178190B2; EP3049912B1; EP3049912A2; WO2015048171A3; US20150088911A1; CN104462156A; WO2015048171A2; ES2811704T3; CN104462156B; JP6511455B2

Abstract

本申請案實施例提供了一種基於用戶行為的特徵提取方法，包括：獲取用戶訪問網頁的點擊流資料；依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；針對所述前X個用戶訪問的網頁的預置標籤配置綜合權重；採用所述預置標籤及其綜合權重計算目前用戶與所述前X個用戶之間的相關度。本申請案基於點擊流資料，構建用戶訪問網頁的點擊路徑的帶權重的有向圖模型，將用戶的相關度計算首先轉換為帶權重有向圖的相似度計算，並引入網頁標籤庫，融合網頁標籤內容的相關度計算，從中挖掘用戶的點擊習慣與個性化行為偏好，從而提高用戶聚類準確率與效率。

Description

基於用戶行為的特徵提取、個性化推薦方法和系統

本申請案實施例關於資料處理技術領域，特別是關於一種基於用戶行為的特徵提取方法、一種基於用戶行為特徵提取的系統、一種基於用戶行為的個性化推薦方法和一種基於用戶行為的個性化推薦系統。

網際網路(Internet)的迅猛發展將人們帶入了資訊社會和網路經濟時代，對企業的發展和個人生活都產生了深刻的影響。同時，過量的資訊使得人們無法高效地從中獲取自己需要的部分，資訊的使用效率反而降低。

以電子商務(Electronic Commerce)為例，電子商務是在Internet開放的網路環境下，基於瀏覽器/伺服器應用方式，實現消費者的網上購物、商戶之間的網上交易和在綫電子支付的一種新型的商業運營模式。隨著Internet的爆發式發展，電子商務越加繁榮。由於供應鏈和物流的發展，商家能夠在網上提供的商品種類和數量非常多，反而大大增加了消費者購物的時間成本，降低了電子商務平臺的商品購買率。顯然，用戶既不願意花費太多時間在漫無邊際的網上尋找商品，也不可能像在現實生活中那樣檢查商品的質量。而是希望根據自身的興趣愛好自動獲取系統推薦的而且會感到滿意的商品。因此根據不同的用戶特徵，進行個性化推薦，或者把用戶劃分為不同的群組，進行有針對性的服務，是目前的應用熱點之一。

現有技術中，用戶聚類多是基於網頁點擊序列距離的使用者訪問路徑或者使用者搜索關鍵字，使用者訪問一般是多次的、間斷的，每一次訪問的點擊路徑不可能完全一樣，現有技術並不能很好地綜合衡量用戶的多次訪問帶來的差異，用戶聚類的效果差，從而導致服務效率低下。

因此，目前需要本領域技術人員迫切解決的一個技術問題就是：提供一種使用者個性化服務推薦機制，可以準確地度量用戶之間的相關性，形成一個有效準確的用戶群，分別進行針對性的服務，提高服務的效率。

本申請案實施例所要解決的技術問題是提供一種基於用戶行為的特徵提取方法和一種基於用戶行為的個性化推薦方法，用以準確地度量用戶之間的相關性，形成一個有效準確的用戶群，分別進行針對性的服務，提高服務的效率。

相應的，本申請案實施例還提供了一種基於用戶行為的特徵提取系統和一種基於用戶行為的個性化推薦系統，用以保證上述方法的實現及應用。

為了解決上述問題，本申請案實施例公開了一種基於用戶行為的特徵提取方法，包括：獲取用戶訪問網頁的點擊流資料；依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；針對所述前X個用戶訪問的網頁的預置標籤配置綜合權重；採用所述預置標籤及其綜合權重計算目前用戶與所述前X個用戶之間的相關度。

較佳地，所述點擊流資料具有多條，每一條點擊流資料包括用戶標識、目前網頁、來源網頁、點擊時間和停留時間；所述依據所述點擊流資料計算目前用戶與其他用戶訪問所述網站的路徑相關度的步驟包括：將所述用戶的多條點擊流資料劃分為一個或多個會話；所述會話中按點擊時間排序後相鄰的點擊流資料的點擊時間之差小於或等於第一預設時間閾值；在每個會話中，採用所述目前網頁及其來源網頁建立點擊流路徑樹；所述點擊流路徑樹包括節點和路徑，所述節點為目前網頁，所述路徑指示所述目前網頁及其來源網頁；合併點擊流路徑樹，以及，按照平均停留時間為合併後的節點配置分級權重，按照瀏覽量pυ數為合併後的路徑配置比例權重，產生權重-有向圖；其中，所述平均停留時間為所述多條點擊流資料中所述節點的停留時間之和與所述節點的總瀏覽pυ量之比；所述比例權重為所述節點對應的來源網頁點擊到所述節點的瀏覽pυ量與所述節點對應的來源網頁的總瀏覽pυ量之比；提取與目前用戶的公共路徑最多的前Y個用戶；其中，Y為正整數，所述公共路徑為目前網頁及其來源網頁相同的路徑；採用所述權重-有向圖，計算目前用戶與所述前Y個用戶訪問網頁的路徑相關度。

較佳地，所述節點包括根節點和子節點，所述在每個會話中，採用所述目前網頁及其來源網頁建立點擊流路徑樹的步驟包括：採用目前點擊流資料的來源網頁匹配點擊時間更早的點擊流資料的目前網頁，直至滿足預設條件；當匹配成功時，將目前點擊流資料的目前網頁作為匹配成功的點擊流資料的目前網頁的子節點；當匹配失敗時，以目前點擊流資料的目前網頁作為根節點建立新點擊流路徑樹；其中，所述預設條件包括：匹配次數大於預設匹配閾值；和/或，目前點擊流資料與匹配的點擊流資料的點擊時間之差大於第二預設時間閾值。

較佳地，所述在每個會話中，採用所述目前網頁及其來源網頁建立點擊流路徑樹的步驟還包括：去除孤點；所述孤點為只有一個節點的點擊流路徑樹。

較佳地，所述按照平均停留時間為合併後的節點配置訪問分級權重的步驟包括：將所述節點按照平均停留時間排序後劃分多個區間；為每個區間配置對應的訪問分級權重。

較佳地，所述權重-有向圖包括：U={…,,…,,…}

其中，為用戶對網頁u _i的點擊情況，u _i為目前訪問網頁，λ _i為分級權重；和，T={…,,…,,…}

其中，為用戶從網頁u _j點擊到網頁u _i的一個點擊流向，u _i為目前網頁，u _j為來源網頁，δ _ij為比例權重。

較佳地，通過以下公式計算所述目前用戶與所述前Y個用戶訪問網頁的路徑相關度：

其中，所述公共路徑的最小權值=所述公共路徑的比例權重的最小值×所述公共路徑指示的目前網頁的分級權重的最小值×所述公共路徑指示的來源網頁的分級權重的最小值；所述公共路徑的最大權值=所述公共路徑的比例權重的最大值×所述公共路徑指示的目前網頁的分級權重的最大值×所述公共路徑指示的來源網頁的分級權重的最大值；所述非公共路徑的權值=所述非公共路徑的比例權重×所述非公共路徑指示的目前網頁的分級權重×所述非公共路徑指示的來源網頁的分級權重。

較佳地，所述網頁具有網頁權重，所述預置標籤具有原始權重，所述綜合權重通過以下公式獲取：

其中，為所述預置標籤的綜合權重，σk為出現所述預置標籤的網頁的數量，w _i為所述網頁的網頁權重，pυ _i為所述網頁的總瀏覽量，wp _i為所述預置標籤在所述網頁中的原始權重。

較佳地，所述目前用戶與所述前X個用戶之間的相關度通過以下公式獲取：

其中，Sim(i,j)為用戶i和用戶j的相關度， ,σ為標籤，為所述標籤的綜合權重。

本申請案實施例還公開了一種基於用戶行為的個性化推薦方法，包括：獲取用戶資訊，所述用戶資訊包括用戶標識；根據所述用戶標識確定與目前用戶的相似度最高的Z個用戶；其中，所述Z為正整數；針對所述Z個用戶向目前用戶進行推薦；其中，所述相似度通過如下方式產生：獲取用戶訪問網頁的點擊流資料；依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；針對所述前X個用戶訪問的網頁的預置標籤配置綜合權重；採用所述預置標籤及其綜合權重計算目前用戶與所述前X個用戶之間的相關度。

本申請案實施例還公開了一種基於用戶行為的特徵提取系統，包括：點擊流資料獲取模組，用於獲取用戶訪問網頁的點擊流資料；路徑相關度計算模組，用於依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；第一提取模組，用於提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；綜合權重配置模組，用於針對所述前X個用戶訪問的網頁的預置標籤配置綜合權重；用戶相關度計算模組，用於採用所述預置標籤及其綜合權重計算目前用戶與所述前X個用戶之間的相關度。較佳地，所述點擊流資料具有多條，每一條點擊流資料包括用戶標識、目前網頁、來源網頁、點擊時間和停留時間；所述路徑相關度計算模組包括：會話劃分子模組，用於將所述用戶的多條點擊流資料劃分為一個或多個會話；所述會話中按點擊時間排序後相鄰的點擊流資料的點擊時間之差小於或等於第一預設時間閾值；點擊流路徑樹建立子模組，用於在每個會話中，採用所述目前網頁及其來源網頁建立點擊流路徑樹；所述點擊流路徑樹包括節點和路徑，所述節點為目前網頁，所述路徑指示所述目前網頁及其來源網頁；點擊流路路徑樹合併子模組，用於合併點擊流路徑樹；分級權重配置子模組，用於按照平均停留時間為合併後的節點配置分級權重；比例權重配置子模組，用於為合併後的路徑配置比例權重；權重-有向圖產生子模組，用於產生權重-有向圖；其中，所述平均停留時間為所述多條點擊流資料中所述節點的停留時間之和與所述節點的總瀏覽pυ量之比；所述訪問比例權重為所述節點對應的來源網頁點擊到所述節點的瀏覽pυ量與所述節點對應的來源網頁的總瀏覽pυ量之比；第二提取子模組，用於提取與目前用戶的公共路徑最多的前Y個用戶；其中，Y為正整數，所述公共路徑為目前網頁及其來源網頁相同的路徑；計算子模組，用於採用所述權重-有向圖，計算目前用戶與所述前Y個用戶訪問網頁的路徑相關度。

較佳地，所述節點包括根節點和子節點，所述點擊流路徑樹建立子模組包括：匹配子模組，用於採用目前點擊流資料的來源網頁匹配點擊時間更早的點擊流資料的目前網頁，直至滿足預設條件；當匹配成功時，調用子節點連接子模組；當匹配失敗時，調用根節點建立子模組；子節點連接子模組，用於將目前點擊流資料的目前網頁作為匹配成功的點擊流資料的目前網頁的子節點；根節點建立子模組，用於以目前點擊流資料的目前網頁作為根節點建立新的點擊流路徑樹；其中，所述預設條件包括：匹配次數大於預設匹配閾值；和/或，目前點擊流資料與匹配的點擊流資料的點擊時間之差大於第二預設時間閾值。

較佳地，所述點擊流路徑樹建立子模組還包括：孤點去除子模組，用於去除孤點；所述孤點為只有一個節點的點擊流路徑樹。

較佳地，所述分級權重配置子模組包括：區間劃分子模組，用於將所述節點按照平均停留時間排序後劃分多個區間；區間配置子模組，為每個區間配置對應的訪問分級權重。

其中，為用戶對網頁u _i的點擊情況，u _i為訪問網頁，λ _i為分級權重；和，T={…,,…,,…}

其中，為用戶從網頁u _j點擊到網頁u _i的一個點擊流向，u _i為訪問網頁，u _j為來源網頁，δ _ij為比例權重。

較佳地，所述標籤具有原始權重，所述綜合權重通過以下公式獲取：

本申請案實施例還公開了一種基於用戶行為的個性化推薦系統，包括：用戶資訊獲取模組，用於獲取用戶資訊，所述用戶資訊包括用戶標識；用戶確定模組，用於根據所述用戶標識確定與目前用戶的相似度最高的Z個用戶；其中，所述Z為正整數；推薦模組，用於針對所述Z個用戶向目前用戶進行推薦；其中，所述相似度通過如下方式產生：獲取用戶訪問網頁的點擊流資料；依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；針對所述前X個用戶訪問的網頁的預置標籤配置綜合權重；採用所述預置標籤及其綜合權重計算目前用戶與所述前X個用戶之問的相關度。

與背景技術相比，本申請案實施例包括以下優點：本申請案基於點擊流資料，構建用戶訪問網頁的點擊路徑的帶權重的有向圖模型，將用戶的相關度計算首先轉換為帶權重有向圖的相似度計算，並引入網頁標籤庫，融合網頁標籤內容的相關度計算，從中挖掘用戶的點擊習慣與個性化行為偏好，從而提高用戶聚類準確率與效率。基於此用戶聚類進行推薦，提高了推薦的成功率與效率。

本申請案通過為點擊流路徑樹的節點配置分級權重，減少了閱讀差異的影響，通過為點擊流路徑樹的路徑配置比例權重和通過為網頁標籤配置綜合權重，提高了表達用戶個性化的準確性。

本申請案提取公共路徑最多的前Y個用戶計算用戶的訪問網頁相關度，在提取訪問網頁相關度最高的前X個用戶計算用戶的相關度，最後提取用戶相關度最高的前Z個用戶進行推薦，通過層級選取具有代表性的資料作為候選集進行計算，提高了計算的準確性，減少了資料處理量，減少了系統資源的占用。

本申請案將用戶聚類群體事先配置到用戶資訊中，當用戶進行訪問的時候，獲取用戶標識後可以直接獲取用戶對應的推薦資訊，節省了系統資源和提高了個性化推薦的效率。

101,102,103,104,105,601,602,603‧‧‧步驟

S11-S17,S121-S124‧‧‧子步驟

S1,S2‧‧‧會話

701‧‧‧點擊流資料獲取模組

702‧‧‧路徑相關度計算模組

703‧‧‧第一提取模組

704‧‧‧綜合權重配置模組

705‧‧‧用戶相關度計算模組

801‧‧‧用戶資訊獲取模組

802‧‧‧用戶確定模組

803‧‧‧推薦模組

圖1是本申請案的一種基於用戶行為的特徵提取方法實施例的步驟流程圖；圖2是本申請案中會話S1的一種點擊流路徑樹示例圖；圖3是本申請案中會話S2的一種點擊流路徑樹合併示例圖；圖4是本申請案中會話S1的一種有向-權重圖；圖5是本申請案中會話S3的一種有向-權重圖；圖6是本申請案的一種基於用戶行為的個性化推薦方法實施例的步驟流程圖；圖7是本申請案的一種基於用戶行為的特徵提取系統實施例的結構方塊圖；圖8是本申請案的一種基於用戶行為的個性化推薦系統實施例的結構方塊圖。

為使本申請案實施例的上述目的、特徵和優點能夠更加明顯易懂，下面結合附圖和具體實施方式對本申請案實施例作進一步詳細的說明。

參照圖1，示出了本申請案的一種基於用戶行為的特徵提取方法實施例的步驟流程圖，本申請案實施例可以包括如下步驟：步驟101，獲取用戶訪問網頁的點擊流資料；需要說明的是，點擊流資料(clickstream data)可以來源於網站日誌，網站日誌可以記錄用戶瀏覽網頁的行為資訊，而點擊流則可以用於表達用戶瀏覽網頁的軌跡。當然，用戶訪問的網頁可以是同一個網站的，也可以是不同網站的，例如不同網站進行跨平臺服務，本申請案實施例對此不加以限制。

在具體應用中，點擊流資料可以為Apache伺服器產生的網站日誌，可以抓取一段或多段時間的原始點擊流資料。具體可以包括用戶訪問的IP地址、目前網頁ENTRY、目前網頁的來源網頁REFERER、訪問目前網頁的點擊時間、HTTP代碼、HTTP流量、HTTP響應時間、瀏覽器特徵AGENT、用戶訪問唯一標識COOKIE ID等資訊。

具體示例如下：61.18.186.132---[23/Feb/2013：00：00：03+0800]"GET/search.china.alibaba.com/business/k-300_y.html HTTP/1.1" 200 20406 275420 "/search.china.alibaba.com/business/k-300_sortPromotion-false_n-y.html" "Mozilla/4.0(compatible；MSIE 8.0；Windows NT 5.1；Trident/4.0；.NET CLR 1.1.4322；.NET CLR 2.0.50727)" 61.15.72.11.1305814706754.4 "a=；b=mid=wold；c=c_key=300| c_sefilter=0"-

伺服器負責收集用戶訪問網站點擊的日誌記錄，可以以一定間隔周期從日誌採集伺服器獲取用戶的點擊流日誌，例如間隔周期可以是實時、按小時或者按天計算等等。

很多情況下，用戶在訪問網站時可能會使用後退、頁面切換、返回主頁或者直接點擊某個連結等操作，即用戶的訪問路徑可以是隨意的、無序的。

獲取用戶訪問網頁的原始點擊流資料後，可以進行預處理，輸出每個用戶的結構化的點擊流資料 Ψ={V ₁,V ₂,…,V _i…,V _Ψn}。其中，目前共有Ψn個用戶，V _i為第i個用戶的點擊流資料。

預處理可以包括對原始點擊流資料進行清洗，過濾亂碼、公司內部訪問等無效日誌等等。

結構化的點擊流資料可以包括，用戶標識、目前網頁、來源網頁、點擊時間和停留時間等等。

具體示例如下：IP=61.18.186.132

DATE TIME=23/Feb/2013：00：00：03

ENTRY=/search.china.alibaba.com/business/k-300\xd4\xaa\xca\xce\xc6\xb7\xbb\xec\xc5\xfa_p-3_offset-7_sortPromotion-false_n-y.html

REFERER=/search.china.alibaba.com/business/k-300%D4%AA%CA%CE%C6%B7%BB%EC%C5%FA_p-2_offset-7_sortPromotion-false_n-y.html

COOKIE ID=61.15.72.11.1305814706754.4

需要說明的是，用戶標識可以為用戶的IP地址，和/或，COOKIE ID，和/或，AGENT等等，只要能標識用戶即可，本申請案實施例對此不加以限制。目前網頁為用戶在某次訪問中訪問的網頁，來源網頁為該目前網頁的來源，例如用戶從A網頁點擊一個連結跳轉到B網頁，對於訪問B網頁此次訪問而言，B網頁為目前網頁，A網頁為來源網頁，特別地，當用戶直接輸入連結訪問網頁時，該目前網頁的來源網頁可以為空。點擊時間為訪問目前網頁的時間。停留時間為訪問目前網頁的瀏覽時長。

步驟102，依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；需要說明的是，訪問網頁的路徑，即用戶瀏覽網頁的軌跡，可以在一定程度反映用戶的行為偏好；相關度，即相關性或相似度，表達相關程度；訪問網頁的路徑相關度高的用戶具有相同的興趣愛好的機率相對較高。

在實際應用中，所述點擊流資料可以具有多條，每一條點擊流資料可以包括用戶標識、目前網頁、來源網頁、點擊時間和停留時間。

步驟102具體可以包括如下子步驟：子步驟S11，將所述用戶的多條點擊流資料劃分為一個或多個會話；所述會話中按點擊時間排序後相鄰的點擊流資料的點擊時間之差小於或等於第一預設時間閾值；在具體實現中，可以將點擊流資料按照點擊時間排序，當連續兩條點擊流資料之間的點擊時間之差小於或等於第一預設時間閾值時，可以認為歸屬於同一個會話。

劃分會話後的點擊流資料的表達可以為：ζ={l ₁,l ₂,…,l _i…,l _ζn}

其中，用戶ζ的點擊流資料劃分為ζ_n個會話，l _i為第i個會話，其中，ζ_n和i均為正整數。

在本申請案實施例的一種較佳示例中，第一預設時間閾值為30分鐘。

子步驟S12，在每個會話中，採用所述目前網頁及其來源網頁建立點擊流路徑樹；所述點擊流路徑樹包括節點和路徑，所述節點為目前網頁，所述路徑指示所述目前網頁及其來源網頁；點擊流路徑樹，可以是對用戶訪問網頁軌跡的表達。

在本申請案實施例的一種較佳示例中，所述節點可以包括根節點和子節點，子步驟S12進一步可以包括如下子步驟：子步驟S121，採用目前點擊流資料的來源網頁匹配點擊時間更早的點擊流資料的目前網頁，直至滿足預設條件；當匹配成功時，執行子步驟S122；當匹配失敗時，執行子步驟S123；需要說明的是，匹配需要遵循兩個原則，其中一個是：用戶目前點擊的來源網頁REFERRER等於上一次瀏覽點擊的目前網頁ENTRY的匹配原則。

在實際應用中，可以將多條點擊流資料按照點擊時間順序排序，從首條點擊流資料(即點擊時間最早的點擊流資料)開始，往上匹配其他點擊流資料(即點擊時間更早的點擊流資料)，直至匹配到會話的第一條點擊流資料為止。

目前網頁和來源網頁均可以為URL(Universal Resource Locator，統一資源定位符)，URL的長度不一，在匹配時可以通過產生特徵串進行匹配的方式提升匹配過程的性能，減少常駐內存。

具體而言，當URL的長度小於或等於16個字符時，可以直接採用URL進行匹配；當URL的長度大於16個字符時，可以採用MD5(Message-Digest Algorithm 5，消息摘要算法第五版)算法，針對該URL產生16個字符的特徵串，再採用特徵串進行匹配。

例如，URL為：http：//sale.suning.com/images/advertise/zyn/130722jiuyang/index.html？utm_source=union&utm_medium=C&utm_campaign=1028&utm_content=1027

通過MD5算法，產生16位特徵串：B11A4C0B627B8FE4。

當然，上述特徵串產生的方式只是作為示例，在實施本發明實施例時，可以根據實際情況設置其它特徵串產生的方式，本申請案實施例對此不加以限制。

另外一個原則是：匹配就近原則，按時間排序，取回溯遍曆中最近的一次成功匹配；例如，在會話S1中，用戶訪問網頁A，停留5秒鐘，接著從網頁A點擊到網頁B，停留2秒鐘，再從網頁B點擊到網頁C，停留3秒鐘，接著從網頁C點擊到網頁E，停留7秒鐘，後又從網頁B點擊到網頁D，停留3秒鐘，再從網頁D點擊到網頁C，停留1秒鐘，再從網頁C點擊到網頁E，停留5秒鐘。

上述點擊流資料均在同一個會話中，按照用戶實際的點擊軌跡可以表示為：A→B→C①→E①→D→C②→E②。其中，C①、C②分別指示第一次、第二次訪問網頁C，E ①、E②分別指示第一次、第二次訪問網頁E。

採用E②向上匹配，可以匹配到C①和C②，但是C②的點擊時間離E②最近的，那麽，C②才是匹配成功的。

子步驟S122，將目前點擊流資料的目前網頁作為匹配成功的點擊流資料的目前網頁的子節點；相對而言，可以稱匹配成功的目前網頁為該子節點的父節點。

在匹配成功父節點和子節點的同時，指示所述目前網頁(子節點)及其來源網頁(父節點)，即指示訪問軌跡的路徑，也會出現。

子步驟S123，以目前點擊流資料的目前網頁作為根節點建立新的點擊流路徑樹；例如在會話S1中，當以A的點擊流資料進行匹配時，匹配失敗，以A為父節點建立新的點擊流路徑樹。

其中，所述預設條件為子步驟S121中匹配停止的條件，可以包括：匹配次數大於預設匹配閾值；預設匹配閾值可以由本領域技術人員根據實際情況進行設定，本申請案實施例對此不加以限制。在本申請案實施例的一種較佳示例中，預設匹配閾值為5000，當匹配次數大於5000時，可以認為是機械訪問，即出於增加網站點擊流量等原因而人為通過特定軟體設定訪問等方式機械地訪問某個網站，是不正常的訪問。

和/或，目前點擊流資料與匹配的點擊流資料的點擊時間之差大於第二預設時間閾值。其中，第二預設時間閾值用於判斷子步驟S121中的匹配是否停止。

同樣，第二預設時間閾值可以由本領域技術人員根據實際情況進行設定，本申請案實施例對此不加以限制。在本申請案實施例的一種較佳示例中，第二預設時間閾值為30分鐘。

在本申請案實施例的另一種較佳示例中，子步驟S12進一步還可以包括如下子步驟：子步驟S124，去除孤點；所述孤點為只有一個節點的點擊流路徑樹。

點擊流路徑樹在會話中的匹配完成後才確定。孤點為只有一個節點的點擊流路徑樹，即該節點即是該點擊流路徑樹的父節點，又是該點擊流路徑樹的子節點。

對於會話S1，點擊流路徑樹的一種表達方式如圖2所示。

需要說明的是，點擊流路徑樹也可以採用其他表示。

例如，點擊流路徑樹的表示(前序遍曆輸出)可以為：l={<v ₁,p ₁,t ₁>…,<v _i,p _i,t _i>,…,<v _ln,p _ln,t _ln>} 公式①

其中，l為點擊流路徑樹，該點擊流路徑樹共有ln個節點，其中<v _i,p _i,t _i>為第i條點擊流資料，1 i ln，ln和i均是正整數，v _i為目前網頁，p _i為訪問v _i的來源網頁，t _i為訪問v _i的停留時間。特別地，i=1時的節點為l的根節點，其無來源網頁(即父節點)，可以用“-”表示來源網頁，即p ₁="-"。

此時，點擊流路徑樹的路徑並不是直觀的表達。

對於會話S1的公式①表達可以為：l={<A,-,5>,<B,A,2>,<C,B,3>,<E,C,7>,<D,B,3>,<C,D,1>,<E,C,5>}

子步驟S13，合併點擊流路徑樹；合併點擊流路徑樹，再配置權重，構建用戶訪問網頁的點擊路徑的帶權重的有向圖模型。

需要說明的是，合併點擊流路徑樹是針對所有節點而言的，具有相同節點的點擊流路徑樹，可以按照相同節點進行合併，沒有相同節點的點擊流路徑樹，合併更加簡單，不需要考慮樹與樹之間的關係，是合併點擊流路徑樹的特例。

例如，在會話S2，有三棵點擊流路徑樹，分別是A→B→C→D、A→C→D和H→J，其中，A-D、H、J分別代表不同的網頁，箭頭代表路徑。

對於A→B→C→D和A→C→D可以合併，而H→J則在合併前後的形式是一樣的，合併結果如圖3所示。

對於點擊流路徑樹的分析統計可以從兩個角度出發，一是用戶網頁的點擊情況，一是用戶網頁的點擊流向，前者為點，後者為邊。

用戶網頁的點擊情況一般統計用戶在某一網頁的pυ(Page View，網頁瀏覽量)數，以及該網頁的平均停留時間。直觀上，用戶訪問網頁的pυ數與停留時間的時長都可以直接反應用戶對該網頁的興趣程度。pυ數越大，網頁停留時間越長，可以說明用戶對該網頁越感興趣。

用戶網頁的點擊流向可以用於描述用戶的點擊趨勢以及比重。而用戶可能在瀏覽該網頁之後直接關閉，也有可能點擊到這個頁面或者那個頁面。

子步驟S14，按照平均停留時間為合併後的節點配置分級權重；其中，所述平均停留時間為所述多條點擊流資料中所述節點的停留時間之和與所述節點的總瀏覽pυ量之比；子步驟S15，按照瀏覽量pυ數為合併後的路徑配置比例權重；其中，所述訪問比例權重為所述節點對應的來源網頁點擊到所述節點的瀏覽pυ量與所述節點對應的來源網頁的總瀏覽pυ量之比；例如，網頁N的總瀏覽pυ量為10，用戶從網頁N(目前網頁M的來源網頁)點擊連結跳轉到網頁M的次數為5次，即點擊到目前網頁M的瀏覽pυ量為5次，則指示來源網頁N到目前網頁M的路徑的比例權重為5/10=0.5。

需要說明的是，目前網頁的來源網頁可以有多個，但是每個來源網站與目前網站的路徑分別只有一條，即每條路徑對應一個確定的目前網頁及其來源網頁。

對用戶的網頁點擊情況可以描述為：

其中，u _i為i個目前訪問網頁，u _i和i均為正整數，pv _i為u _i的總瀏覽量，為訪問u _i的平均停留時間。

和，T={…,,…,,…,,．…} 公式③

其中，表示從來源網頁u _j點擊到目前網頁u _i的pυ數為pv _ij。

對於會話S1，採用公式②進行表達，可以為：U={,,,,}

採用公式③進行表達，可以為：T={,,,}

考慮到每一個用戶的閱讀速度不同，有一些用戶閱讀的快，有一些用戶閱讀的慢。因此按平均停留時間的加權按用戶進行分級，分K個級別(K為正整數)，較佳地，K的取值為7或者13。

則可以將公式②轉換表達為：

其中，u _i為第i個目前訪問網頁，pv _i為u _i的總瀏覽量，λ _i為u _i的分級權重。

在本申請案實施例的一種較佳示例中，所述子步驟S14進一步可以包括如下子步驟：子步驟S141，將所述節點按照平均停留時間排序後劃分多個區間；子步驟S142，為每個區間配置對應的訪問分級權重。

對於會話S1產生的點擊流路徑樹，可以分成K個級別，其中，K取值為5。分別配置分級權重：λ ₁=1.02,λ ₂=1.01,λ ₃=1,λ ₄=0.99,λ ₅=0.98。

在具體實現中，將點擊流資料按照平均停留時間進行從大到小排序，並等分為5個區塊，第一區塊的網頁停留級別為λ ₁，第二區塊的網頁停留級別為λ ₂，以此類推。

此時，會話S1採用公式④表達，可以為：U={,,,,}

在配置比例權重時，考慮目前訪問網頁u _i可能是點擊流路徑樹的子節點，存在直接訪問的情形，所以。pv _ij/pv _j即為u _j點擊分流到u _i的比例，記為δ _ij，即比例權重。其中，p _vj為u _j的總瀏覽量，則δ _ij 1。特殊的，當i=j時，為u _i跳轉到自身u _i的比重，記為δ _ii。

子步驟S16，產生權重-有向圖；在本申請案實施例的一種較佳示例中，可以結合公式③和公式④轉換對用戶網頁點擊情況的表達： U={…,,…,,…} 公式⑤

其中，為用戶對網頁u _i的點擊情況，u _i為目前訪問網頁，λ為分級權重，u _i是第i個目前訪問網頁，λ _i為u _i的分級權重；和，T={…,,…,,…} 公式⑥

其中，為用戶從網頁u _j點擊到網頁u _i的一個點擊流向，u _i為目前網頁，u _j為來源網頁，δ _ij為比例權重，δ _ij表示從來源網頁u _j的點擊中有δ _ij的比例訪問了目前網頁u _i。

由公式⑤和公式⑥可以繪製出用戶-網頁權重有向圖；例如，會話S1採用公式⑤進行表達，可以為：U={,,,,}

會話S1採用公式⑥進行表達，可以為：T={,,,,,}

會話S1配置了分級權重和比例權重，即網頁權重有向圖如圖4所示。

用戶的點擊流資料可以轉換為公式⑤與公式⑤描述的帶權重的有向圖模型。對於不同的用戶，可以得到不同的帶權重的有向圖。所以，計算用戶的相關度，可以轉換為帶權重的有向圖的相關度。

子步驟S17，提取與目前用戶的公共路徑最多的前Y個用戶；其中，Y為正整數，所述公共路徑為目前網頁及其來源網頁相同的路徑；在本申請案實施例的一種較佳示例中，Y=3N，其中，N為正整數。

參照圖5，對會話S3的點擊流路徑樹配置分級權重與比例權重，即為權重-有向圖。與會話S1對比，會話S3與會話S1的權重-有向圖存在三條公共路徑：A→B、B→D和D→C。

子步驟S18，採用所述權重-有向圖，計算目前用戶與所述前Y個用戶訪問網頁的路徑相關度。

對於帶權重的有向圖的相關度的計算，可以首先轉換為公共路徑的個數的求值。對於不同用戶而言，公共路徑越多，權重-有向圖的重疊部分越多，也就意味著用戶的相關度越高；同樣，公共路徑的權重以及公共路徑節點的權重越高，相關度越高。

在本申請案實施例的一種較佳示例中，可以通過以下公式計算所述目前用戶與所述前Y個用戶訪問網頁的路徑相關度：

需要說明的是，公共路徑在兩個用戶中可以具有不同的比例權重，公共路徑指示的目前網頁和來源網頁在兩個用戶中也可以具有不同的分級權重。在計算時，可以按照比例權重和分級權重的值的大小計算即可，不必關注該值在哪個用戶的權重-有向圖中。

參照圖4和圖5，此兩個用戶的訪問網頁的路徑相關度計算如下：公共路徑為：A→B、B→D和D→C

公共路徑的最小權值計算為：0.5×1×0.99+0.5×0.99×1+0.5×1×0.99=1.485

公共路徑的最小權值計算為：1×1.01×0.99+1×0.99×1.02+1×1.02×1.01=3.05

非公共路徑為：圖4上有B→C、C→E，圖5上有D→A、A→C

圖4上的非公共路徑權值計算為：0.5×0.99×0.99+1×0.99×1.02=1.500

圖5上的非公共路徑權值計算為：0.5×1.02×1+0.5×1×1.01=1.015

所以圖4與圖5的相關度計算的結果為：1.485/(1.500+1.015+3.05)=0.267

當然，上述用戶訪問路徑的相似度計算方法只是作為示例，在實施本發明實施例時，可以根據實際情況設置其它用戶訪問路徑的相似度計算方法，例如餘弦相關性計算、皮爾森相關性計算等等，本申請案實施例對此不加以限制。

步驟103，提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；在本申請案實施例的一種較佳示例中，X=2N，其中，N為正整數。

步驟104，針對所述前X個用戶訪問的網頁的預置標籤配置綜合權重；在具體實現中，可以設置網頁標籤庫收集不同網頁的標籤資訊，一個網頁由一個或者多個標籤組成，所述預置標籤可以具有原始權重；對其中某一個網頁可以描述為標籤項列表：

其中，網頁共有個標籤，σ _i為第i個標籤，，和i均為正整數，wp _i為σ _i的原始權重。

一個標籤項可以由標籤及標籤權重兩部分構成，其中，標籤可以為網頁類型、網頁關鍵字、網頁類目、ID等等，網頁類型可以為首頁、導航頁、搜尋網頁、產品首頁、公司首頁、產品頁、訂單頁、登錄頁等；ID可以是產品ID，公司ID等，網頁類目可以是產品類目、公司類目、OFFER類目，比如所問的化妝品類目等。

當然，上述標籤只是作為示例，在實施本發明實施例時，可以根據實際情況設置其它標籤，只要能夠標識網頁的特性即可，本申請實施例對此不加以限制。

以某一個出售路由器產品的電子商務的網頁為例，對其可以引入標籤為：產品型號=DIR-616

產品品牌=D-Link

網頁類目=路由器

產品ID=22540068533

賣家名稱=dlink流翔專賣店

其中，等號左邊為標籤名稱，等號右邊為標籤內容。

則該網頁可以表示為：

其中，標籤為產品ID與產品型號的原始權重為1，標籤為產品品牌的原始權重為0.5，標籤為路由器的原始權重為0.3，標籤為賣家名稱的原始權重為0.7。

當然，原始權重可以由本領域技術人員根據實際情況設定，本申請案實施例對此不加以限制。

所述網頁可以具有網頁權重；每一個u _i對應的一個網頁，該網頁可以由網頁權重與網頁標籤項列表標識：

其中，w _i為該網頁的網頁權重，為該網頁的標籤項列表。

所述綜合權重可以通過以下公式獲取：

步驟105，採用所述標籤及其綜合權重計算目前用戶與所述前X個用戶之間的相關度。

將公式⑧代入公式⑦中，並結合公式②可以得到k維標籤權重向量空間：其中，k為正整數，σ為某一標籤，為該標籤的綜合權重。

k維標籤權重向量空間可以為標籤空間以權重為坐標的向量表述，不同用戶的相關度計算可以換算為標籤權重向量空間的距離。

在本申請案的一種較佳實施例中，目前用戶與所述前X個用戶之間的相關度可以通過以下公式獲取：

其中，Sim(i,j)為用戶i和用戶j的相關度，,σ為標籤，為所述標籤的綜合權重。

當然，上述用戶的相似度計算方法只是作為示例，在實施本發明實施例時，可以根據實際情況設置其它用戶的相似度計算方法，例如餘弦相關性計算、皮爾森相關性計算等等，本申請案實施例對此不加以限制。

用戶相關度在一定程度上表達了用戶之間興趣愛好的相似程度，用戶之間的相關度越大，其興趣愛好相似程度越高。

本申請案基於點擊流資料，構建用戶訪問網頁的點擊路徑的帶權重的有向圖模型，將用戶的相關度計算首先轉換為帶權重有向圖的相似度計算，並引入網頁標籤庫，融合網頁標籤內容的相關度計算，從中挖掘用戶的點擊習慣與個性化行為偏好，從而提高用戶聚類準確率與效率。基於此用戶聚類進行推薦，提高了推薦的成功率與效率。

參照圖6，示出了本申請案的一種基於用戶行為資訊的個性化推薦方法實施例的步驟流程圖，具體可以包括如下步驟：步驟601，獲取用戶資訊，所述用戶資訊包括用戶標識；步驟602，根據所述用戶標識確定與目前用戶的相似度最高的Z個用戶；其中，所述Z為正整數；步驟603，針對所述Z個用戶向目前用戶進行推薦；其中，所述相似度通過如下方式產生：獲取用戶訪問網頁的點擊流資料；所述點擊流資料中包括目前網頁的標籤；依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；針對所述前X個用戶的點擊流資料中目前網頁的標籤配置綜合權重；採用所述標籤及其綜合權重計算目前用戶與所述前X個用戶之間的相關度。

在本申請案實施例的一種較佳示例中，Z=N，N為正整數。

本申請案提取公共路徑最多的前Y個用戶計算用戶的訪問網頁相關度，在提取訪問網頁相關度最高的前X個用戶計算用戶的相關度，最後提取用戶相關度最高的前Z個用戶進行推薦，通過層級選取具有代表性的資料進行計算，提高了計算的準確性，減了資料處理量，減少了系統資源的占用。

在具體實現中，可以依據與目前用戶相關度最高的X個用戶，進行好友推薦、博客推薦、產品推薦等等。

本申請案實施例可以依據預設的時間規則對收集到的用戶的點擊流資料計算用戶之間的相關度，再將結果配置到相應的用戶標識上。

其中，所述時間規則可由本領域技術人員根據實際情況進行設定，例如，可以是定期或不定期採用全部或部分用戶的點擊流資料計算用戶之間的相關度，部分用戶的點擊流資料可以是一段或多段時間內收集的用戶的點擊流資料，本申請案實施例對此不加以限制。

本申請案實施例還可以設置黑名單和白名單，黑名單為目前用戶設置的信任名單，白名單為目前用戶設置的不信任名單，可以包括推薦的用戶、推薦的博客、推薦的產品等等。

本申請案實施例還可以採用用戶針對對該用戶進行推薦的反饋資訊調整標籤的原始權重，和/或，網頁權重，和/或，分級權重。

對於本申請案實施例而言，由於提取聚類空間特徵維度的方法實施例與基於用戶行為的特徵提取的方法實施例基本相似，本申請案實施例在此不再詳述，相關之處參見同基於用戶行為的特徵提取的方法實施例的部分說明即可。

對於方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本申請案實施例並不受所描述的動作順序的限制，因為依據本發明實施例，某些步驟可以採用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬於較佳實施例，所關於的動作並不一定是本申請案實施例所必須的。

參照圖7，示出了本申請案的一種基於用戶行為的特徵提取系統實施例的結構方塊圖，在本實施例中，所述系統可以包括如下模組：點擊流資料獲取模組701，用於獲取用戶訪問網頁的點擊流資料；路徑相關度計算模組702，用於依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；第一提取模組703，用於提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；綜合權重配置模組704，用於針對所述前X個用戶訪問的網頁的預置標籤配置綜合權重；用戶相關度計算模組705，用於採用所述預置標籤及其綜合權重計算目前用戶與所述前X個用戶之間的相關度。

在本申請案的一種較佳實施例中，所述點擊流資料具有多條，每一條點擊流資料包括用戶標識、目前網頁、來源網頁、點擊時間和停留時間；所述路徑相關度計算模組可以包括如下子模組：會話劃分子模組，用於將所述用戶的多條點擊流資料劃分為一個或多個會話；所述會話中按點擊時間排序後相鄰的點擊流資料的點擊時間之差小於或等於第一預設時間閾值；點擊流路徑樹建立子模組，用於在每個會話中，採用所述目前網頁及其來源網頁建立點擊流路徑樹；所述點擊流路徑樹包括節點和路徑，所述節點為目前網頁，所述路徑指示所述目前網頁及其來源網頁；點擊流路路徑樹合併子模組，用於合併點擊流路徑樹分級權重配置子模組，用於按照平均停留時間為合併後的節點配置分級權重；比例權重配置子模組，用於為合併後的路徑配置比例權重；權重-有向圖產生子模組，用於產生權重-有向圖；其中，所述平均停留時間為所述多條點擊流資料中所述節點的停留時間之和與所述節點的總瀏覽pυ量之比；所述訪問比例權重為述節點對應的來源網頁點擊到所述節點的瀏覽pυ量與所述節點對應的來源網頁的總瀏覽pυ量之比；第二提取子模組，用於提取與目前用戶的公共路徑最多的前Y個用戶；其中，Y為正整數，所述公共路徑為目前網頁及其來源網頁相同的路徑；計算子模組，用於採用所述權重-有向圖，計算目前用戶與所述前Y個用戶訪問網頁的路徑相關度。

在本申請案的一種較佳實施例中，所述節點包括根節點和子節點，所述點擊流路徑樹建立子模組可以進一步包括如下子模組：匹配子模組，用於採用目前點擊流資料的來源網頁匹配點擊時間更早的點擊流資料的目前網頁，直至滿足預設條件；當匹配成功時，調用子節點連接子模組；當匹配失敗時，調用根節點建立子模組；子節點連接子模組，用於將目前點擊流資料的目前網頁作為匹配成功的點擊流資料的目前網頁的子節點；根節點建立子模組，用於以目前點擊流資料的目前網頁作為根節點建立新的點擊流路徑樹；其中，所述預設條件包括：匹配次數大於預設匹配閾值；和/或，目前點擊流資料與匹配的點擊流資料的點擊時間之差大於第二預設時間閾值。

在本申請案的一種較佳實施例中，所述點擊流路徑樹建立子模組進一步還可以包括如下子模組：孤點去除子模組，用於去除孤點；所述孤點為只有一個節點的點擊流路徑樹。

在本申請案的一種較佳實施例中，所述分級權重配置子模組進一步可以包括如下子模組：區間劃分子模組，用於將所述節點按照平均停留時間排序後劃分多個區間；區間配置子模組，為每個區間配置對應的訪問分級權重。

在本申請案實施例的一種較佳示例中，所述權重-有向圖可以包括：U={…,,…,,…}

其中，為用戶對網頁u _i的點擊情況，u _i為目前訪問網頁，λ為分級權重；和，T={…,,…,,…}

在本申請案的一種較佳實施例中，所述標籤具有原始權重，所述綜合權重可以通過以下公式獲取：

在本申請案的一種較佳實施例中，所述目前用戶與所述前X個用戶之間的相關度可以通過以下公式獲取：

參照圖8，示出了本申請案的一種基於用戶行為的個性化推薦系統實施例的結構方塊圖，在本實施例中，所述系統可以包括如下模組：用戶資訊獲取模組801，用於獲取用戶資訊，所述用戶資訊包括用戶標識；用戶確定模組802，用於根據所述用戶標識確定與目前用戶的相似度最高的Z個用戶；其中，所述Z為正整數；推薦模組803，用於針對所述Z個用戶向目前用戶進行推薦；其中，所述相似度通過如下方式產生：獲取用戶訪問網頁的點擊流資料；依據所述點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，所述X為正整數；針對所述前X個用戶訪問的網頁的預置標籤配置綜合權重；採用所述預置標籤及其綜合權重計算目前用戶與所述前X個用戶之間的相關度。

對於系統實施例而言，由於其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

本說明書中的各個實施例均採用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域內的技術人員應明白，本申請案實施例的實施例可提供為方法、裝置、或計算機程序產品。因此，本申請案實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本申請案實施例可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用儲存媒體(包括但不限於磁盤儲存器、CD-ROM、光學儲存器等)上實施的計算機程序產品的形式。

在一個典型的配置中，所述計算機設備包括一個或多個處理器(CPU)、輸入/輸出接口、網路接口和內存。內存可能包括計算機可讀媒體中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性內存等形式，如唯讀記憶體(ROM)或閃存(flash RAM)。內存是計算機可讀媒體的示例。計算機可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是計算機可讀指令、資料結構、程序的模組或其他資料。計算機的儲存媒體的例子包括，但不限於相變內存(PRAM)、靜態隨機存取儲存器(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他內存技術、只讀光盤唯讀記憶體(CD-ROM)、數字多功能光盤(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁盤儲存或其他磁性儲存設備或任何其他非傳輸媒體，可用於儲存可以被計算設備訪問的資訊。按照本文中的界定，計算機可讀媒體不包括非持續性的電腦可讀媒體(transitory media)，如調製的資料信號和載波。

本申請案實施例是參照根據本申請案實施例的方法、移動設備(系統)、和計算機程序產品的流程圖和/或方塊圖來描述的。應理解可由計算機程序指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程資料處理移動設備的處理器以產生一個機器，使得通過計算機或其他可編程資料處理移動設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。

這些計算機程序指令也可儲存在能引導計算機或其他可編程資料處理移動設備以特定方式工作的計算機可讀記憶體中，使得儲存在該計算機可讀記憶體中的指令產生包括指令裝置的製造品，該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程資料處理移動設備上，使得在計算機或其他可編程移動設備上執行一系列操作步驟以產生計算機實現的處理，從而在計算機或其他可編程移動設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。

儘管已描述了本申請案實施例的較佳實施例，但本領域內的技術人員一旦得知了基本創造性概念，則可對這些實施例做出另外的變更和修改。所以，所附申請專利範圍意欲解釋為包括較佳實施例以及落入本申請案實施例範圍的所有變更和修改。

最後，還需要說明的是，在本文中，諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者移動設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者移動設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個......”限定的要素，並不排除在包括所述要素的過程、方法、物品或者移動設備中還存在另外的相同要素。

以上對本申請案實施例所提供的一種基於用戶行為的特徵提取方法、一種基於用戶行為特徵提取的系統、一種基於用戶行為的個性化推薦方法和一種基於用戶行為的個性化推薦系統，進行了詳細介紹，本文中應用了具體個例對本申請案實施例的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本申請案實施例的方法及其核心思想；同時，對於本領域的一般技術人員，依據本申請案實施例的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請案實施例的限制。

Claims

一種基於用戶行為的特徵提取方法，其特徵在於，該方法包括：獲取用戶訪問網頁的點擊流資料；依據該點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，該X為正整數；針對該前X個用戶訪問的網頁的預置標籤配置綜合權重；及採用該預置標籤及其綜合權重計算目前用戶與該前X個用戶之間的相關度。
根據申請專利範圍第1項所述的方法，其中，該點擊流資料具有多條，每一條點擊流資料包括用戶標識、目前網頁、來源網頁、點擊時間和停留時間；該依據該點擊流資料計算目前用戶與其他用戶訪問該網站的路徑相關度的步驟包括：將該用戶的多條點擊流資料劃分為一個或多個會話；該會話中按點擊時間排序後相鄰的點擊流資料的點擊時間之差小於或等於第一預設時間閾值；在每個會話中，採用該目前網頁及其來源網頁建立點擊流路徑樹；該點擊流路徑樹包括節點和路徑，該節點為目前網頁，該路徑指示所述目前網頁及其來源網頁；合併點擊流路徑樹，以及，按照平均停留時間為合併後的節點配置分級權重，按照瀏覽量pυ數為合併後的路徑配置比例權重，產生權重-有向圖；其中，該平均停留時間為該多條點擊流資料中該節點的停留時間之和與該節點的總瀏覽pυ量之比；該比例權重為該節點對應的來源網頁點擊到該節點的瀏覽pυ量與該節點對應的來源網頁的總瀏覽pυ量之比；提取與目前用戶的公共路徑最多的前Y個用戶；其中，Y為正整數，該公共路徑為目前網頁及其來源網頁相同的路徑；及採用該權重-有向圖，計算目前用戶與該前Y個用戶訪問網頁的路徑相關度。
根據申請專利範圍第2項所述的方法，其中，該節點包括根節點和子節點，該在每個會話中，採用該目前網頁及其來源網頁建立點擊流路徑樹的步驟包括：採用目前點擊流資料的來源網頁匹配點擊時間更早的點擊流資料的目前網頁，直至滿足預設條件；當匹配成功時，將目前點擊流資料的目前網頁作為匹配成功的點擊流資料的目前網頁的子節點；當匹配失敗時，以目前點擊流資料的目前網頁作為根節點建立新的點擊流路徑樹；其中，該預設條件包括：匹配次數大於預設匹配閾值；和/或，目前點擊流資料與匹配的點擊流資料的點擊時間之差大於第二預設時間閾值。
根據申請專利範圍第2項所述的方法，其中，該按照平均停留時間為合併後的節點配置訪問分級權重的步驟包括：將該節點按照平均停留時間排序後劃分多個區間；及為每個區間配置對應的訪問分級權重。
根據申請專利範圍第2項所述的方法，其中，該權重-有向圖包括：U={…,,…,,…}其中，為用戶對網頁u _i的點擊情況，u _i為目前訪問網頁，λ _i為分級權重；和，T={…,,…,,…}其中，為用戶從網頁u _j點擊到網頁u _i的一個點擊流向，u _i為目前網頁，u _j為來源網頁，δ _ij為比例權重。
根據申請專利範圍第2項所述的方法，其中，通過以下公式計算該目前用戶與所述前Y個用戶訪問網頁的路徑相關度：其中，該公共路徑的最小權值=該公共路徑的比例權重的最小值×該公共路徑指示的目前網頁的分級權重的最小值×該公共路徑指示的來源網頁的分級權重的最小值；該公共路徑的最大權值=該公共路徑的比例權重的最大值×該公共路徑指示的目前網頁的分級權重的最大值×該公共路徑指示的來源網頁的分級權重的最大值；及該非公共路徑的權值=該非公共路徑的比例權重×該非公共路徑指示的目前網頁的分級權重×該非公共路徑指示的來源網頁的分級權重。
根據申請專利範圍第1項所述的方法，其中，該網頁具有網頁權重，該預置標籤具有原始權重，該綜合權重通過以下公式獲取：其中，為該預置標籤的綜合權重，σk為出現該預置標籤的網頁的數量，w _i為該網頁的網頁權重，pυ _i為該網頁的總瀏覽量，wp _i為該預置標籤在該網頁中的原始權重。
根據申請專利範圍第7項所述的方法，其中，該目前用戶與該前X個用戶之間的相關度通過以下公式獲取：其中，Sim(i,j)為用戶i和用戶j的相關度，,σ為標籤，為該標籤的綜合權重。
一種基於用戶行為的個性化推薦方法，其特徵在於，包括：獲取用戶資訊，該用戶資訊包括用戶標識；根據該用戶標識確定與目前用戶的相似度最高的Z個用戶；其中，該Z為正整數；針對該Z個用戶向目前用戶進行推薦；其中，該相似度通過如下方式產生：獲取用戶訪問網頁的點擊流資料；依據該點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，該X為正整數；針對該前X個用戶訪問的網頁的預置標籤配置綜合權重；及採用該預置標籤及其綜合權重計算目前用戶與該前X個用戶之間的相關度。
一種基於用戶行為的特徵提取系統，其特徵在於，包括：點擊流資料獲取模組，用於獲取用戶訪問網頁的點擊流資料；路徑相關度計算模組，用於依據該點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；第一提取模組，用於提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，該X為正整數；綜合權重配置模組，用於針對該前X個用戶訪問的網頁的預置標籤配置綜合權重；及用戶相關度計算模組，用於採用該預置標籤及其綜合權重計算目前用戶與該前X個用戶之間的相關度。
根據申請專利範圍第10項所述的系統，其中，該點擊流資料具有多條，每一條點擊流資料包括用戶標識、目前網頁、來源網頁、點擊時間和停留時間；該路徑相關度計算模組包括：會話劃分子模組，用於將該用戶的多條點擊流資料劃分為一個或多個會話；該會話中按點擊時間排序後相鄰的點擊流資料的點擊時間之差小於或等於第一預設時間閾值；點擊流路徑樹建立子模組，用於在每個會話中，採用該目前網頁及其來源網頁建立點擊流路徑樹；該點擊流路徑樹包括節點和路徑，該節點為目前網頁，該路徑指示所述目前網頁及其來源網頁；點擊流路路徑樹合併子模組，用於合併點擊流路徑樹；分級權重配置子模組，用於按照平均停留時間為合併後的節點配置分級權重；比例權重配置子模組，用於為合併後的路徑配置比例權重；權重-有向圖產生子模組，用於產生權重-有向圖；其中，該平均停留時間為所述多條點擊流資料中該節點的停留時間之和與該節點的總瀏覽pυ量之比；該訪問比例權重為所述節點對應的來源網頁點擊到該節點的瀏覽pυ量與該節點對應的來源網頁的總瀏覽pυ量之比；第二提取子模組，用於提取與目前用戶的公共路徑最多的前Y個用戶；其中，Y為正整數，該公共路徑為目前網頁及其來源網頁相同的路徑；及計算子模組，用於採用該權重-有向圖，計算目前用戶與該前Y個用戶訪問網頁的路徑相關度。
根據申請專利範圍第11項所述的系統，其中，該節點包括根節點和子節點，該點擊流路徑樹建立子模組包括：匹配子模組，用於採用目前點擊流資料的來源網頁匹配點擊時間更早的點擊流資料的目前網頁，直至滿足預設條件；當匹配成功時，調用子節點連接子模組；當匹配失敗時，調用根節點建立子模組；子節點連接子模組，用於將目前點擊流資料的目前網頁作為匹配成功的點擊流資料的目前網頁的子節點；根節點建立子模組，用於以目前點擊流資料的目前網頁作為根節點建立新的點擊流路徑樹；其中，該預設條件包括：匹配次數大於預設匹配閾值；和/或，目前點擊流資料與匹配的點擊流資料的點擊時間之差大於第二預設時間閾值。
根據申請專利範圍第11項所述的系統，其中，該分級權重配置子模組包括：區間劃分子模組，用於將該節點按照平均停留時間排序後劃分多個區間；及區間配置子模組，為每個區間配置對應的訪問分級權重。
根據申請專利範圍第11項所述的系統，其中，該權重-有向圖包括：U={…,,…,,…}其中，為用戶對網頁u _i的點擊情況，u _i為訪問網頁，λ _i為分級權重；和，T={…,,…,,…}其中，為用戶從網頁u _j點擊到網頁u _i的一個點擊流向，u _i為訪問網頁，u _j為來源網頁，δ _ij為比例權重。
一種基於用戶行為的個性化推薦系統，其特徵在於，該系統包括：用戶資訊獲取模組，用於獲取用戶資訊，該用戶資訊包括用戶標識；用戶確定模組，用於根據該用戶標識確定與目前用戶的相似度最高的Z個用戶；其中，該Z為正整數；推薦模組，用於針對該Z個用戶向目前用戶進行推薦；其中，該相似度通過如下方式產生：獲取用戶訪問網頁的點擊流資料；依據該點擊流資料計算目前用戶與其他用戶訪問網頁的路徑相關度；提取與目前用戶訪問網頁的路徑相關度最高的前X個用戶；其中，該X為正整數；及針對該前X個用戶訪問的網頁的預置標籤配置綜合權重；及採用該預置標籤及其綜合權重計算目前用戶與該前X個用戶之間的相關度。