TW201822019A

TW201822019A - 網路交互系統

Info

Publication number: TW201822019A
Application number: TW106126096A
Authority: TW
Inventors: 黃丕培; 彭鵬
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-12-09
Filing date: 2017-08-02
Publication date: 2018-06-16
Also published as: CN108228579A; US20180165746A1; WO2018107102A1

Abstract

本申請實施方式公開了一種網路交互系統，包括：前端伺服器和推薦系統；所述前端伺服器，用於接收用戶端的訪問請求；將用戶端的使用者資訊提供給推薦系統；基於推薦系統提供的期望獎勵值在推薦系統提供的素材集中篩選得到結果集；將結果集發送給用戶端；推薦系統用於獲取用戶端的使用者資訊對應的使用者特徵集；獲取包括用於頁面顯示的素材的素材集，以及素材對應的素材特徵集；根據使用者特徵集和素材的素材特徵集生成期望獎勵值，其中，期望獎勵值為素材在所述預設頁面顯示且被點擊時，推薦系統得到的獎勵值；將素材集和期望獎勵值提供給前端伺服器。所述系統可以提升使用者頁面瀏覽效率。

Description

網路交互系統

本申請係關於電腦技術領域，特別關於一種網路交互系統。

隨著電子商務的不斷發展，越來越多的消費者習慣了網上購物。以可以享受到網路購物帶來的便捷。

購物網站為了滿足不同用戶的購買需求，使得購物網站提供的商品和服務種類越來越多。比如家電產品、家居用品。可以將家電產品作為一個大的類別，那麼進一步的還有各種產品本身的類別，例如冰箱、洗衣機。在進一步的，產品本身還分為很多的品牌和型號。使得購物網站中提供了非常多的商品和服務。

使用者在瀏覽購物網站時，需要從購物網站提供的大量的商品和服務的資訊中，逐漸篩選找到自己想要的商品或服務。現有的購物網站並不能提供很好的措施，以幫助用戶可以儘快找到想要的商品或服務。

本申請實施方式的目的是提供一種網路交互系統。能夠有效說明使用者儘快找到目標商品或者服務。

為實現上述目的，本申請實施方式提供一種網路交互系統，包括：前端伺服器和推薦系統；所述前端伺服器，用於接收用戶端的訪問請求；將所述用戶端的使用者資訊提供給所述推薦系統；基於所述推薦系統提供的期望獎勵值在所述推薦系統提供的素材集中篩選得到結果集；將所述結果集發送給所述用戶端；所述推薦系統，用於獲取所述用戶端的使用者資訊對應的使用者特徵集；獲取包括用於頁面顯示的素材的素材集，以及所述素材對應的素材特徵集；根據所述使用者特徵集和所述素材的素材特徵集生成期望獎勵值，其中，所述期望獎勵值為所述素材在所述預設頁面顯示且被點擊時，所述推薦系統得到的獎勵值；將所述素材集和所述期望獎勵值提供給所述前端伺服器。

由以上本申請實施方式提供的技術方案可見，本申請實施方式提供的網路交互系統可以根據標識使用者的使用者特徵集和標識素材的素材特徵集生成對應素材的期望獎勵值。使得前端伺服器可以有依據在將素材集中的選擇素材提供給用戶。再者，所述推薦系統可以藉由資料訓練等，使得期望獎勵值的大小可以用於預測用戶點擊素材的可能性，使得顯示給使用者的素材。有較大可能引起用戶的興趣，從而實現減少了用戶進行挑選的時間，給用戶帶來了便利。

為了更清楚地說明本申請實施方式或現有技術中的技術方案，下面將對實施方式或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請中記載的一些實施方式，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本申請實施方式提供的一種網路交互系統的工作流程示意圖；圖2為本申請實施方式提供的一種網路交互系統提供給用戶端顯示的頁面示意圖；圖3為本申請實施方式提供的一種使用者使用用戶端進行頁面流轉訪問的示意圖；圖4為本申請實施方式提供的一種表徵向量中用戶特徵集和素材特徵集組合的示意圖；圖5為本申請實施方式提供的一種推薦系統運算得出索引量的演算法的示意圖。

為了使本技術領域的人員更好地理解本申請中的技術方案，下面將結合本申請實施方式中的附圖，對本申請實施方式中的技術方案進行清楚、完整地描述，顯然，所描述的實施方式僅僅是本申請一部分實施方式，而不是全部的實施方式。基於本申請中的實施方式，本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施方式，都應當屬於本申請保護的範圍。

請參閱圖1。本申請實施方式提供一種網路交互系統。該網路交互系統包括：前端伺服器、推薦系統。

所述前端伺服器用於接收用戶端的訪問請求；將所述用戶端的使用者資訊提供給所述推薦系統；基於所述推薦系統提供的期望獎勵值在所述推薦系統提供的素材集中篩選得到結果集；將所述結果集發送給所述用戶端。

在本實施方式中，前端伺服器可以為一個具有運算和網路交互功能的電子設備；也可以為運行於該電子設備中，為資料處理和網路交互提供支援的軟體。

在本實施方式中，前端伺服器並不具體限定伺服器的數量。前端伺服器可以為一個伺服器，還可以為幾個伺服器，或者，若干伺服器形成的伺服器集群。

在本實施方式中，前端伺服器可以為電子商務網站平台的業務伺服器。如此，前端伺服器可以直接藉由網路與用戶端進行通信。

在本實施方式中，用戶端可以為具有顯示、運算和網路訪問功能的電子設備。具體的，例如，用戶端可以為台式電腦、平板電腦、筆記型電腦、智慧手機、數位助理、智慧可穿戴設備、導購終端、具有網路訪問功能的電視機。或者，用戶端也可以為能夠運行於上述電子設備中的軟體。具體的，例如，用戶端可以為購物網站平台提供訪問入口，例如當當網站、京東網站、亞馬遜網站等；用戶端還可以為購物網站平台提供的在智慧手機中運行的應用。例如，手機當當、手機京東、手機亞馬遜等。

在本實施方式中，訪問請求可以為具有指定格式的字串，其可以表示一個頁面的訪問位址。或者，訪問請求中可以具有頁面標識，使得藉由頁面標識實現訪問請求指向一個頁面。訪問請求的指定格式可以為遵循網路通信協定的格式，如此使得訪問請求可以經由互聯網傳送。具體的，用戶端可以依照網路通信協定，例如Http、TCP/IP或者FTP協定等，向前端伺服器發出訪問請求。

在本實施方式中，使用者資訊可以為能夠標識所述用戶端的資訊。或者，所述使用者資訊可以標識使用所述用戶端的用戶。具體的，使用者資訊本身可以為預先設定的一個名稱，或者，所述用戶端的網路位址，或者系統平台為使用者分配的編號作為使用者資訊。具體的，例如使用者資訊可以為使用者登錄網站的用戶名。

在本實施方式中，前端伺服器獲得使用者資訊的方式可以包括但不限於：在用戶端的訪問請求中附帶有使用者資訊，前端伺服器從該訪問請求中解析得到所述使用者資訊；前端伺服器根據用戶端的訪問請求，在本機存放區的資料庫中得到使用者資訊，其中訪問請求中可以具有用於匹配查找使用者資訊的標識。

在本實施方式中，前端伺服器在推薦系統提供的素材集中進行篩選得到結果集的方式可以包括：所述推薦系統已經根據期望獎勵值對回饋的素材集進行篩選，使得前端伺服器挑選素材集中的全部素材放入所述結果集；前端伺服器從素材集中選擇指定數量的素材提供給用戶端時，可以根據素材集中素材對應的期望獎勵值，從大到小進行選擇；前端伺服器中可以預先設定有選擇素材的優先種類，進而根據素材的種類結合期望獎勵值的大小，進行選擇素材。具體的，例如，推薦系統提供的素材集中包括有第一素材、第二素材和第三素材，對應的獎勵期望值分別為0.5、0.7和0.3。前端伺服器可以將第一素材、第二素材和第三素材均提供給用戶端。前端伺服器可以基於獎勵期望值對第一素材、第二素材和第三素材進行排序後，提供給用戶端。前端伺服器可以選擇獎勵期望值較大的第二素材和第一素材提供給用戶端。進一步的，在一個具體場景示例中，第一素材關於家電，第二素材關於衣服，第三素材關於消防產品，前端伺服器中設定有消防產品優先，此時前端伺服器可以將第三素材和第二素材提供給用戶端。

所述推薦系統，用於獲取所述用戶端的使用者資訊對應的使用者特徵集；獲取包括用於頁面顯示的素材的素材集，以及所述素材對應的素材特徵集；根據所述使用者特徵集和所述素材的素材特徵集生成期望獎勵值；其中，所述期望獎勵值為所述素材在所述預設頁面顯示且被點擊時，所述推薦系統得到的獎勵值；將所述素材集和所述期望獎勵值提供給所述前端伺服器。

在本實施方式中，推薦系統可以為伺服器，且並不具體限定伺服器的數量。推薦系統可以為一個伺服器，還可以為幾個伺服器，或者，若干伺服器形成的伺服器集群。

在本實施方式中，使用者特徵集可以包括多個不同維度的使用者屬性值。使得用戶特徵集可以較為全面的表徵一個用戶。以便於對用戶行為進行預測。用戶特徵集可以包括但不限於用戶的帳戶名、性別、住址、交易資訊、指定時間的頁面訪問記錄等。推薦系統中可以對應使用者資訊儲存有所述使用者特徵集，可以為推薦系統接收到使用者資訊之後，立即進行資訊搜集整理，形成所述用戶特徵集。

在本實施方式中，素材集可以包括網站平台中全部的資料資訊。素材集也可以為包括網站平台中全部資料資訊的一部分。可以藉由預先設置的處理規則，在網站平台中的資料資訊進行篩選得到所述素材集。在本實施方式中，素材集中可以包括至少二個素材。具體的，例如，網站平台舉例為“京東”、“亞馬遜”、“當當”、“ebay”等等。素材可以包括頁面素材和主題素材。其中頁面素材可以用於頁面的顯示，可以包括樓層素材、物件素材等。其中物件素材可以指向網站平台中提供的商品或者服務。樓層素材和物件素材可以具體為圖片、文字或視頻等。主題素材可以用於約束要顯示的物件素材的類型。具體的主題素材可以為坑位素材。在頁面中坑位素材可以約束指定位置顯示的物件素材的類別。具體的，例如，坑位素材為“小家電”，則在坑位元素材指定的位置顯示的物件素材為“豆漿機”或“剃鬚刀”等小家電的圖片。

在本實施方式中，在素材集中的素材也可以是商品或者服務的頁面本身。也可以為，素材是商品或服務的頁面的指向標識。或者，素材指向的頁面可以為一類商品或服務的頁面，在該頁面中具有多個商品或服務的資訊。具體的，例如，素材為家電或汽車，該素材指向的頁面為“家電會場”頁面或“汽車會場”頁面。在“家電會場”頁面，可以有多個家電產品，或者在“汽車會場”頁面，可以有多款汽車。

在本實施方式中，素材特徵集可以包括多個不同維度的素材屬性值。素材指向的商品或服務，會有其自身的屬性。將該些屬性的屬性值和在一起形成所述素材特徵集。該素材特徵集可以較為全面的表徵素材。具體的，例如，素材特徵集中可以包括不限於產品或服務種類、名稱、價位、銷量、評價、購買人群、適合人群、適合季節、上市時間等等屬性資訊。

在本實施方式中，每個素材可以對應有一個素材特徵集。如此，使得素材特徵集可以具有較強的針對性，且較為準確全面的表徵所述素材。在一些情況下，也可以多個素材對應一個素材特徵集，如此可以減少素材特徵集的數量，實現減少儲存空間佔用。具體的，例如，多個素材指向的商品或服務相同或近似，可以針對該多個素材設置一個素材特徵集。

當然，素材集以及素材特徵集的內容並不限於在網站平台中獲得。素材集和素材特徵集的內容來源還可以為協力廠商提供。可以理解為，協力廠商可以在網路上搜集整理資料資訊，形成該素材集和素材特徵集。協力廠商可以將該素材集和素材特徵集提供給網站平台以使網站平台可以保存。協力廠商也可以向網站平台提供訪問入口，可以向網站平台提供索引清單。如此，推薦系統便可以根據該索引清單進行搜索匹配，並可以進一步的根據索引清單從協力廠商的素材集和素材特徵集中拉取結果資料。協力廠商可以是專門從事資料整理的公司，也可以是專業的電子產品評測網站，還可以是網站平台中的商家。

在本實施方式中，期望獎勵值為推薦系統對應素材生成的。期望獎勵值是推薦系統對得到的獎勵值的預期。當素材在頁面顯示之後，使用者點擊該素材向前端伺服器發送訪問請求時，推薦系統得到的獎勵值為所述素材對應的期望獎勵值。由於前端伺服器根據期望獎勵值篩選素材提供給用戶端，如此，推薦系統便可以根據獲得的獎勵值的大小，判斷用戶是否點擊了期望獎勵值最大值對應的素材。進而，推薦系統可以判斷其對素材生成的期望獎勵值是否合理。

在本實施方式中，推薦系統根據使用者特徵集和素材的素材特徵集生成期望獎勵值。使得期望獎勵值可以一定程度上預測所述素材在頁面上顯示時，使用者點擊該素材的可能性。期望獎勵值越大，表示推薦系統認為使用者有較大可能性點擊所述素材，期望獎勵值較小，表示推薦系統認為使用者有較小可能性點擊所述素材。推薦系統可以根據預設的演算法生成所述期望獎勵值。具體的，例如，推薦系統可以利用強化學習演算法(Reinforcement Learning)，將所述用戶特徵集和所述素材特徵集作為輸入得出所述期望獎勵值。

在本實施方式中，獎勵可以理解為在頁面發生針對素材的點擊事件時，推薦系統得到數值回饋的過程。由於針對不同素材的點擊事件，推薦系統得到的資料回饋大小也不相同。如此，推薦系統可以將得到數值回饋的最大值，即得到的獎勵值等於最大的期望獎勵值，作為推薦系統的目標。推薦系統可以根據得到的獎勵值和頁面中元素的期望獎勵值資訊等，對自身的演算法進行修正，以使得頁面顯示的素材更加適合使用者，並追求最大期望獎勵值對應的素材是用戶的興趣點或關注點。

在本實施方式中，在素材被頁面展示後，使用者針對素材發生了點擊事件，可以表示用戶要瀏覽該素材的詳細內容頁面。同樣，用戶端向前端伺服器發起訪問請求，該訪問請求指向所述素材的詳細內容頁面。此時前端伺服器接收到該訪問請求之後，通知所述推薦系統得到獎勵值，所述獎勵值為所述素材對應的期望獎勵值。如此，實現了從用戶端的頁面上接收到使用者的操作行為，回饋至推薦系統。進而，推薦系統可以根據回饋的獎勵值，進行判斷分析針對素材的期望獎勵值是否合理，以及是否需要修正演算法等。如此可以實現了推薦系統自身的自學習。

本申請實施方式提供的網路交互系統可以根據標識使用者的使用者特徵集和標識素材的素材特徵集生成對應素材的期望獎勵值。使得前端伺服器可以有依據在將素材集中的選擇素材提供給用戶。再者，所述推薦系統可以藉由資料訓練等，使得期望獎勵值的大小可以用於預測用戶點擊素材的可能性，使得顯示給使用者的素材。有較大可能引起用戶的興趣，從而實現減少了用戶進行挑選的時間，給用戶帶來了便利。

在一個具體的場景示例中，用戶使用用戶端訪問某網站的首頁。該網站的網路交互系統接收到用戶端發出的訪問請求。前端伺服器接收到訪問請求之後，從訪問請求中解析得到使用者資訊“UserID123”。前端伺服器將使用者資訊“UserID123”提供給推薦系統。推薦系統根據使用者資訊在儲存的使用者特徵集中查找到與“UserID123”對應的使用者資訊。例如，用戶特徵集可以包括{用戶名：UserID123、性別：女、年齡：29、購買力：中、……}。

在本場景示例中，在回饋給用戶端的頁面中，可以有樓層素材、坑位素材和物件素材等三種素材。其中樓層素材可以作為一個容器，其具有樓層主題。樓層素材中可以設置多個坑位素材。坑位元素材可以具有坑位主題。

在本場景示例中，可以共有4個樓層素材，每個樓層素材的樓層主題可以不同，具體的可以包括智慧家電、家居生活、內衣配飾和男女鞋包。每個樓層素材可以有對應的素材特徵集。例如，智慧家電樓層的素材特徵集中可以包括{網路：WIFI、產品詞：電視、產品詞：電冰箱、輸入方式：觸控式螢幕……}，家居生活樓層的素材特徵集可以包括{使用環境：室內、適用季節：春季、產品詞：睡衣、產品詞：拖鞋……}，在此不再列舉。同樣坑位素材和物件素材也分別有對應的素材特徵集，也不再舉例。

在本場景示例中，推薦系統可以獲取樓層素材對應的素材特徵集，分別根據使用者特徵集和每個樓層的素材特徵集，基於強化學習演算法生成樓層素材對應的期望獎勵值。例如，智慧家電樓層的期望獎勵值為0.5，內衣配飾的期望獎勵值為0.3，家居生活的期望獎勵值為0.8，男女鞋包的期望獎勵值為0.6。進一步的，推薦系統針對每個樓層素材中的坑位素材計算期望獎勵值。以及推線系統對物件素材計算期望獎勵值。

在本場景示例中，推薦系統針將完成計算期望獎勵值的素材及其期望獎勵值提供給前端伺服器。前端伺服器基於樓層素材的期望獎勵值，對樓層素材排序。以及前端伺服器在每個樓層素材對應的坑位素材中，按照期望獎勵值，選擇坑位素材。每個樓層素材可以具有多個坑位素材，而在一次頁面顯示過程中，僅僅展示部分坑位元素材。使得前端伺服器選擇期望獎勵值較大的坑位素材。例如，智慧家電樓層中可以顯示9個坑位元素材，若智慧家電樓層對應的坑位素材共有20個，此時前端伺服器可以根據該20個坑位元素材的期望獎勵值大小，挑選前9個坑位素材。同理，前端伺服器在推薦系統提供的物件素材中根據期望獎勵值，確定每個坑位元素材中顯示的物件素材。

在本場景示例中，請參閱圖2。前端伺服器將篩選完成的素材，提供給用戶端。使得用戶端可以顯示所述頁面。

在本場景示例中，用戶端接收到用戶對家居生活樓層中居家百貨素材的點擊事件。用戶端向網路交互系統發出訪問請求。此時，前端伺服器接收所述訪問請求，進而將使用者資訊提供給推薦系統，再者，所述居家百貨素材發生點擊事件，所述推薦系統得到獎勵值為所述居家百貨素材的期望獎勵值。

在一個實施方式中，所述結果集中至少包括所述期望獎勵值中最大值對應的素材。

在本實施方式中，前端伺服器在推薦系統提供的素材集中篩選時，至少將該素材集中期望獎勵值中最大值對應的素材放入結果集中。使得，提供給用戶端的頁面中，會顯示期望獎勵值中最大值對應的素材。該素材可能會相較於其它素材，更加能夠引起用戶的注意，而使用戶針對該素材發生點擊行為，進一步瀏覽該素材的詳細內容頁面。在另一個角度，期望獎勵值中最大值對應的素材，是推薦系統認為使用者最關注的素材，藉由將該素材顯示給使用者，可以減少用戶的挑選時間，給用戶帶來便利。

在一個實施方式中，所述結果集中素材的期望獎勵值不小於所述推薦系統提供的素材集中未處於所述結果集的素材的期望獎勵值。

在本實施方式中，前端伺服器在推薦系統提供的素材集中，可以按照期望獎勵值大小選在較大的素材放入結果集。其中，前端伺服器可以選擇預設數量的素材，如此可以將素材按照期望獎勵值從大到小排序，進而可以選擇期望獎勵值相對較大的素材。再者，前端伺服器中也可以預先設置臨限值，將期望獎勵值大於該臨限值的素材放入結果集。

在本實施方式中，推薦系統提供的素材集中，一部分素材處於所述結果集中，一部分素材未處於所述結果集中。處於結果集中素材的期望獎勵值大於或等於未處於結果集中的素材的期望獎勵值。在一些情況下，前端伺服器選擇預設數量的素材，當素材集中存在多個素材的期望獎勵值相同時，在選擇素材放入結果集之後。結果集中部分素材的期望獎勵值與未放入結果集中素材的期望獎勵值中最大相同。具體的，例如，前端伺服器選擇二個素材放入結果集，素材集中包括第一素材、第二素材和第三素材，期望獎勵值分別為0.7、0.5和0.5。此時第二素材和第三素材的期望獎勵值相同。前端伺服器可以隨機在第二素材和第三素材中選擇一個放入結果集。前端伺服器還可以為根據第二素材和第三素材的默認排序，選擇一個放入結果集。

在一個實施方式中，所述推薦系統將所述使用者特徵集和所述素材特徵集生成表徵所述使用者資訊和所述素材特徵集對應素材的表徵向量，基於所述表徵向量生成所述素材的期望獎勵值。

在本實施方式中，表徵向量可以包括有很多個維度的屬性值。藉由屬性值取值的不同，使得每個表徵向量表示的用戶特徵集和素材可以不同。在進行運算期望獎勵值的過程中，藉由輸入表徵向量，計算素材的期望獎勵值，可以減少運算的工作量。

在本實施方式中，可以將使用者特徵集和素材特徵集按照預設演算法進行運算得到該表徵向量。如此，便可以預先約定生成表徵向量的規則，如此使用者特徵集和不同素材特徵集生成的表徵向量可以具有較為統一的標準。在該表徵向量中，可以存在至少一個維度，該維度的取值表示使用者特徵集和素材特徵集中部分特徵的組合。具體的，例如圖4所示，可以將使用者特徵集中的使用者帳號(user_id)、年齡(age)、性別(gender)、使用者設備的作業系統(os)等特徵，與素材特徵集中的素材編號(content_id)、店鋪(shop)、類目(category)、品牌(brand)等特徵，並加上時間長度特徵：1日(1 day)、3日(3 day)、7日(7 day)、15日(15 day)，進行交叉組合，形成表徵向量中的一個特徵值。具體的，例如，可以採用回歸樹演算法，將使用者特徵集和素材特徵集生成表徵向量。例如，回歸樹演算法例如為GBDT(Gradient Boosting Decision Tree)。可以將葉子節點作為用戶特徵集和素材特徵集的表徵向量。

當然，本實施方式中僅以回歸樹演算法為例，本申請並不限於回歸樹演算法。在一個具體的實施方式中，可以採用GBDT演算法將使用者特徵集和素材特徵集生成表徵向量，在採用強化學習演算法基於所述表徵向量生成所述素材對應的期望獎勵值。如此，採用GBDT演算法對特徵資料進行整理後，作為強化學習演算法的輸入，可以簡化運算過程，提升運算效率。如此加工後的表徵向量可以更加準確的表徵用戶和素材，使得採用強化學習計算得出的期望獎勵值可以較為適當。如此前端伺服器根據期望獎勵值提供給用戶的素材，能夠比較準確的命中用戶的興趣點。

在一個實施方式中，所述推薦系統將所述前端伺服器回應所述用戶端多次訪問請求過程中，所述推薦系統得到的獎勵值形成累計獎勵值；當所述累計獎勵值不是上述過程中，所述結果集中素材的最大期望獎勵值之和時，將得到所述累計獎勵值的過程資料記錄為偏差資訊；根據所述偏差資訊修正生成所述期望獎勵值的演算法。

在本實施方式中，累計獎勵值可以是多次頁面訪問中，推薦系統得到的獎勵值的累加值。推薦系統追求的目標可以為，累計獎勵值是多次頁面訪問時結果集中素材的最大期望獎勵值之和。即推薦系統追求可以得到最大化的累計獎勵值。如此，推薦系統可以根據是否得到了最大的累計獎勵值，判斷針對素材生成的期望獎勵值是否適當。由於前端伺服器基於期望獎勵值提供給用戶端的素材，使得當素材的期望獎勵值不適當時，用戶並沒有點擊最大的期望獎勵值對應的素材，使得推薦系統得到的獎勵值不是最大的期望獎勵值。若累計獎勵值是多次頁面訪問中，結果集中最大的期望獎勵值之和，可以表示使用者在該多次頁面中點擊了最大的期望獎勵值對應的素材。如此，表示推薦系統針對素材生成的期望獎勵值是適當的。

在本實施方式中，推薦系統可以根據得到的累計獎勵值是否等於最大期望獎勵值之和，判斷目前的演算法是否合理。使得推薦系統可以具有自動學習功能。如此可以減少人工參與，省時省力。再者，推薦系統自動修正演算法，使得推薦系統可以較快跟進每個使用者的實際訪問情況，使得網路交互系統提供的頁面更加切合使用者的關注點或興趣點。也節省了用戶進行素材篩選的時間，減少了用戶進行素材篩選的操作，給用戶帶來了便利。當然，本申請不限於推薦系統進行自動修正演算法，其也可以為推薦系統記錄偏差資訊後，人工瀏覽偏差資訊並修正推薦系統的演算法。

在本實施方式中，推薦系統可以記錄偏差資訊，該偏差資訊作為修正生成期望獎勵值演算法的依據。偏差資訊可以包括不限於使用者資訊、表徵向量、使用者特徵集、素材特徵集、素材的期望獎勵值、推薦系統得到的獎勵值、累計獎勵值和多次頁面訪問中最大的期望獎勵值之和等等。

在本實施方式中，推薦系統生成期望獎勵值的演算法可以具有多個參數。修正所述演算法可以是修改演算法中的部分參數取值，使得用戶實際點擊的素材，具有其所在結果集的最大的期望獎勵值。通常情況下，使用者點擊頁面中的素材，可以表示用戶實際感興趣或者關注的內容。以此作為基礎，網路交互系統修正生成期望獎勵值的演算法，使得實際發生點擊的素材具有最大的期望獎勵值，可以更加準確的匹配用戶的實際感興趣或關注的內容。如此，在使用者後續的頁面訪問中，網路交互系統可以較為準確的提供用戶感興趣或關注的素材，減少用戶的篩選時間。

在一個具體的場景示例中，請參閱圖3。用戶端顯示網站首頁之後，可以進行進一步的操作。在首頁、場景首頁、主題頁、搜尋網頁、詳情頁和下單頁之間的箭頭，表示互相之間可以根據使用者的訪問行為進行轉換。用戶在首頁點擊某一個表示場景首頁的素材之後，用戶端向網路交互系統發出指向場景首頁的訪問請求。此時推薦系統會得到獎勵值，該獎勵值是發生點擊事件的素材的期望獎勵值，例如期望獎勵值為0.7。按照前述介紹，網路交互系統向用戶端提供場景首頁，例如場景首頁會有一些主題商品，使用者點擊了表示某一主題的素材。用戶端向網路交互系統發出指向主題頁面的訪問請求。此時推薦系統得到獎勵值，該獎勵值是場景頁面發生點擊事件的素材的期望獎勵值，例如期望獎勵值為0.6。此時，推薦系統得到的累計獎勵值為1.3。以此類推，使用者訪問至下單頁下達訂單資訊。在這個過程中，如果用戶每次點擊的素材，均為該頁面中最大的期望獎勵值對應的素材，則推薦系統可以得到累計獎勵值為最大的期望獎勵值之和。這是推薦系統本身的目標。如果，在場景首頁中，用戶點擊的素材不是該頁面中最大的期望獎勵值對應的素材，此時推薦系統得到的累計獎勵值便不是最大的期望獎勵值之和，例如場景首頁中最大的期望獎勵值為0.9，對應的素材為商務手錶主題素材，而使用者實際點擊的是休閒皮鞋主題素材，使得推薦系統得到的獎勵值為休閒皮鞋主題素材0.6。此時推薦系統的累計獎勵值1.3小於最大期望獎勵值之和1.5，認為推薦系統的推薦不夠適當，需要記錄該偏差資訊，作為後續修正的依據。

在一個實施方式中，在所述前端伺服器接收到所述用戶端發出的訂單資訊時，所述推薦系統判斷得到的所述累計獎勵值是否為所述用戶端多次訪問請求過程中，所述結果集中所述最大期望獎勵值之和。

在本實施方式中，推薦系統可以將用戶端訪問網站首頁至最終下達訂單之間，多次頁面訪問行為，作為一個整體計算累計獎勵值。判斷累計獎勵值是否是至下達訂單之前，向用戶端提供的結果集中素材的最大的期望獎勵值之和。

在本實施方式中，網路交互系統的最終目標可以為收到用戶端發出的訂單資訊。若用戶每次點擊的素材均為最大的期望獎勵值對應的素材，此時在用戶端初次訪問頁面至用戶端發出訂單資訊，可以形成一個相對最短的路徑。此時，用戶可以有相對較少的操作，使用相對較少的時間。由於減少了每個用戶的操作行為，使得相對降低了網路交互系統與一個用戶端交互的工作量，在網路交互系統的業務承載能力有限的情況下，本實施方式可以使得網路交互系統為更多的用戶端服務。

在一個實施方式中，在所述預設頁面發生點擊事件時，若得到的獎勵值不是所述結果集中素材的最大期望獎勵值，記錄偏差資訊；其中所述偏差資訊包括所述獎勵值對應的素材資訊；根據所述偏差資訊修正生成所述期望獎勵值的演算法。

在本實施方式中，所述推薦系統的目標為獲得最大的獎勵值。即推薦系統的目標是得到的獎勵值等於結果集中素材的最大期望獎勵值。當推薦系統得到的獎勵值不是結果集中素材的最大期望獎勵值。可以理解為，推薦系統針對素材生成的期望獎勵值是不適當的。推薦系統可以藉由修正生成期望獎勵值的演算法，以使得最大期望獎勵值對應的素材更加接近用戶的興趣點或關注點。使得最大期望值對應的素材可以被用戶點擊。如此推薦系統得到的獎勵值便可以等於結果集中素材的最大期望獎勵值。

在一個實施方式中，所述推薦系統根據預設時間長度中記錄的所述偏差資訊修正所述演算法。

在本實施方式中，推薦系統可以不是針對記錄的偏差資訊，立即修正演算法。推薦系統可以將一定長度時間中記錄的偏差資訊，作為一次修正推薦系統的輸入。如此，便可以避免一些因用戶的誤操作導致的推薦系統接收到的獎勵值不是前述最大期望獎勵值。使得，針對演算法的修正更加合理。具體的，預設時間長度可以為1小時、3小時，或者1天、2天，或者1個月等等不再列舉。

在一個實施方式中，所述推薦系統在所述偏差資訊達到預設資料量時，根據所述偏差資訊修正所述演算法。

在本實施方式中，預設資料量可以是一個具體的數字。預設資料量可以指推薦系統得到的獎勵值與最大期望獎勵值不相同的次數。或者，預設數量可以指推薦系統得到的累計獎勵值，與相對應的過程中最大獎勵值之和不相同的次數。

在本實施方式中，推薦系統可以不是針對記錄的偏差資訊立即修正生成期望獎勵值的演算法。避免因用戶的誤操作，而立即修正生成期望獎勵值的演算法，導致提供給使用者的結果集中，素材更加便宜用戶的興趣點或關注點。

在一個實施方式中，所述推薦系統中包括至少二個期望獎勵值運算模型；其中，至少二個期望獎勵值運算模型具有相似運算邏輯，但生成所述至少二個期望獎勵值運算模型的訓練資料集不同。

在本實施方式中，期望獎勵值運算模型可以是基於網站平台的歷史資料進行訓練得到，用於根據輸入的使用者特徵集和素材特徵集輸出素材的期望獎勵值。具體的，例如期望獎勵值運算模型可以基於強化學習演算法生成。

在本實施方式中，訓練資料集可以是網站平台中的歷史資料。歷史資料可以是網站平台的日誌資料。其可以具有網站平台中的素材、素材特徵、使用者資訊、使用者訪問資訊、使用者特徵集等等。

在本實施方式中，相似運算邏輯可以為至少二個期望獎勵值運算模型具有相同的演算法基礎。具體的，例如至少二個期望獎勵值運算模型均基於強化學習演算法。由於，採用不同的訓練資料集，是的至少二個期望獎勵值運算模型在形成過程中，內部的運算參數可以不同。

在本實施方式中，至少二個期望獎勵值運算模型的訓練資料集不同，可以為期望獎勵值運算模型採用不同時間段中，網站平台記錄的日誌資料。具體的，例如，在基於強化學習演算法生成運算模型，首先使用2015年11月21日至2015年11月25日網站平台的日誌資料，將訓練得到的運算模型作為第一運算模型，接著使用2015年11月26日至2015年11月31日的日誌資料，對所述第一運算模型進行訓練得到第二運算模型。如此第一運算模型和第二運算模型具有相似的運算邏輯，但採用了不同的訓練資料集。

在一個實施方式中，所述期望獎勵值為所述至少二個期望獎勵值運算模型輸出的預測值的加權求和，或者均值。

在本實施方式中，最終輸出的期望獎勵值可以是至少二個期望獎勵值運算模型的輸出結果，進行運算得到。每個期望獎勵值運算模型可以輸出一個預測值。如此，將至少二個期望獎勵值輸出的預測值進行累加後求均值，可以將均值作為最終輸出的期望獎勵值。當然，在形成至少二個期望獎勵值運算模型過程中，可以為每個期望獎勵值運算模型配置權重。如此，在生成最終的期望獎勵值時，可以將每個期望獎勵值運算模型輸出的預測值進行加權求和，將加權求和值作為最終的期望獎勵值。具體的，例如，可以採用自我調整線上學習演算法(Adaptive-Online-Learning)，針對訓練得到的運算模型設置權重。本實施方式藉由多個期望獎勵值運算模型共同作用得到最終的期望獎勵值，使得推薦系統可以對各種不同的業務、場景、用戶群體，都可以有較佳的適用性。

在一個具體的應用示例中，可以採用下述公式表示期望獎勵值。

其中，Q可以表示期望獎勵值；s可以表示用戶特徵集；a可以表示推薦系統針對S表徵的使用者提供的素材列表；R表示推薦系統預測上述素材提供給用戶端之後，用戶端發生點擊事件時，推薦系統可以得到的獎勵值；IE可以表示求取期望獎勵值的函數。所述函數可以為線性函數或神經網路。

在本應用示例中，上述公式較為適合單一素材推薦的場景。在一些情況下，可能涉及同時推薦多個素材，本應用示例還提供一種可以針對多個素材推薦的演算法。假設用戶如果喜歡商品A，用戶不會因為在同一推薦列表中見到了他更喜歡的商品B而放棄點擊商品A。在這一假設下，對展示每個商品所獲得的累積獎勵的計算也是獨立的。藉由推導，可以得到以下函數，實現針對多個素材推薦時，簡化運算過程，降低硬體設備的工作負荷。

其中，f(s,i)可以表示對真實值Q(s,i)進行估計；i可以表示素材編號；r_i可以表示用戶點擊素材i之後，推薦系統獲得的獎勵值；γ可以表示衰減係數；α_i可以表示推薦系統在使用者點擊素材i之後推薦給用戶的素材列表，j可以表示推薦的素材列表α_i中的其中一個素材。

由以上本申請實施方式提供的技術方案可見，本申請實施方式提供的網路交互系統，實現可以針對用戶端提供的訪問請求提供頁面資料。其中頁面資料中的素材會對應一個期望獎勵值，在該素材發生點擊事件時，推薦系統會得到獎勵值，該獎勵值等於所述素材的期望獎勵值。使得推薦系統可以以獲得最大的獎勵值為系統設計的目標，進而使得網路交互系統提供給使用者的素材，更加傾向於引起用戶的興趣或關注，使得用戶進行點擊訪問。減少了用戶進行篩選的時間。再者，由於減少了用戶瀏覽許多網頁進行篩選的工作，使得減少了網路交互系統的工作量。在網路交互系統有限的承載能力下，回應單個用戶的工作量降低，可以使得網路交互系統可以為更多的使用者提供服務。

本申請實施方式還提供一種網路交互系統。該推薦系統包括：前端伺服器和推薦系統。

所述前端伺服器，用於接收用戶端的訪問請求；將所述用戶端的使用者資訊提供給所述推薦系統；基於所述推薦系統提供的索引量在所述推薦系統提供的素材集中篩選得到結果集，其中，所述結果集中包括至少一個素材；將所述結果集發送給所述用戶端。

所述推薦系統，用於獲取所述用戶端的使用者資訊對應的使用者特徵集；獲取包括用於頁面顯示的素材的素材集，以及所述素材對應的素材特徵集；根據所述使用者特徵集和所述素材特徵集生成表徵所述使用者資訊和所述素材的表徵向量；基於所述表徵向量得出所述素材對應於所述使用者資訊的索引量；將所述素材集和所述索引量提供給所述前端伺服器。

在本實施方式中，索引量可以是一個具體的資料。前端伺服器可以根據該索引量針對素材集中的素材進行篩選。具體的，索引量可以是點擊率的預測值。如此前端伺服器可以根據預測的點擊率向用戶端回饋素材，使得用戶端中顯示的素材可以較大的可能被用戶瀏覽訪問。具體的，推薦系統基於所述表徵向量生成索引量的演算法可以為FTRL演算法(Follow-The-Regularized-Leader)或者LR演算法(Logistic Regression)。

在本實施方式中，推薦系統可以根據使用者特徵集和素材特徵集形成可以表徵用戶和素材的表徵向量。在該表徵向量中，可以存在至少一個維度，該維度的取值表示使用者特徵集和素材特徵集中部分特徵的組合。具體的，例如圖4所示，可以將使用者特徵集中的使用者帳號、年齡等特徵，與素材特徵集中的素材編號、類目等特徵，進行交叉組合，形成表徵向量中的一個特徵值。具體的，可以採用GBDT演算法將上述使用者特徵集和素材特徵集進行組合形成表徵向量。

所述推薦系統，用於獲取所述用戶端的使用者資訊對應的使用者特徵集；獲取包括用於頁面顯示的素材的素材集，以及所述素材對應的素材特徵集；將所述使用者特徵集和所述素材特徵集中的特徵劃分為離散特徵集和連續特徵集，並基於基於所述離散特徵集和所述連續特徵集得出所述素材對應於所述使用者資訊的索引量；將所述素材集和所述索引量提供給所述前端伺服器。

在本實施方式中，離散特徵集中包括的特徵，可以為相互之間較為獨立的特徵。離散特徵集中包括的每個特徵可以單獨的表示一個維度的屬性。具體的，離散特徵集中可以包括作為標識使用的特徵。即這些特徵本身可以用於標識某一個物件，或者，某一種業務等。例如，離散特徵集中可以包括用戶名稱、用戶端網路位址、用戶端實體位址、網頁標識、素材標識、廣告坑位標識、會話標識等等，不再列舉。

在本實施方式中，連續特徵集中包括的特徵，可以為表示一種連續的狀態、或者一段時間內統計的資料。具體的，連續特徵集中包括的特徵，可以用於表示某事物或者資料持續的狀態、頻率、過程等。例如，連續特徵集中可以包括點擊率、銷售量、成交比例、評價資訊等等。

在本實施方式中，計算素材對應的索引量時，可以將該素材的素材特徵集和用戶特徵集進行劃分為連續特徵集和離散特徵集。當涉及多個素材時，可以分別針對每個素材進行上述劃分連續特徵集和素材特徵集的操作。

在本實施方式中，索引量可以是一個具體的資料。前端伺服器可以根據該索引量針對素材集中的素材進行篩選。具體的，索引量可以是點擊率的預測值。如此前端伺服器可以根據預測的點擊率向用戶端回饋素材，使得用戶端中顯示的素材可以較大的可能被用戶瀏覽訪問。

在一個具體的應用示例中，請參閱圖5。推薦系統可以將離散特徵集和連續特徵集中的一部分特徵採用邏輯回歸演算法(Logistic Regression)進行運算處理，將離散特徵集和連續特徵集中的一部分特徵採用神經網路演算法進行運算處理。將邏輯回歸演算法和神經網路演算法的輸出，按照一定演算法整合處理得到最終的索引量。神經網路演算法包括但不限於卷積神經網路(Convolutional Neural Network)、迴圈神經網路(Recurrent Neural Network)和深度神經網路(Deep Neural Network)等。離散特徵集和連續特徵集可以分別作為邏輯回歸演算法和神經網路演算法的輸入；也可以為，將離散特徵集和連續特徵集進行混合後，將一部分特徵作為邏輯回歸演算法和神經網路演算法的輸入。具體的，例如，推薦系統可以根據WDL(Wide & Deep Learning)演算法，將邏輯回歸演算法和神經網路演算法的輸出進行整合。演算法例如。

其中，P可以表示預測點擊率；Y可以表示類標(label)；σ可以表示啟動函數；W_wide可以表示邏輯回歸演算法；W_deep可以表示神經網路演算法；X可以表示原始樣本特徵；b可以表示bias項，Φ可以表示交叉相乘操作(Φ(x)就表示將原始樣本特徵向量進行交叉相乘之後得到的特徵)，α^(1f)可以表示神經網路隱層輸出。

在一個實施方式中，所述推薦系統中包括至少二個索引量運算模型。其中，至少二個索引量運算模型具有相似運算邏輯，但生成所述至少二個索引量運算模型的訓練資料集不同。

在本實施方式中，索引量運算模型可以是基於網站平台的歷史資料進行訓練得到，用於根據輸入的使用者特徵集和素材特徵集輸出素材的索引量。具體的，例如索引量運算模型可以基於FTRL演算法或者WDL演算法。

在本實施方式中，相似運算邏輯可以為至少二個索引量運算模型具有相同的演算法基礎。具體的，例如至少二個索引量運算模型均基於FTRL演算法或者WDL演算法。由於，採用不同的訓練資料集，是的至少二個索引量運算模型在形成過程中，內部的運算參數可以不同。

在本實施方式中，至少二個索引量運算模型的訓練資料集不同，可以為索引量運算模型採用不同時間段中，網站平台記錄的日誌資料。具體的，例如，在基於FTRL演算法或者WDL演算法生成運算模型，首先使用2015年11月21日至2015年11月25日網站平台的日誌資料，將訓練得到的運算模型作為第一運算模型，接著使用2015年11月26日至2015年11月31日的日誌資料，對所述第一運算模型進行訓練得到第二運算模型。如此第一運算模型和第二運算模型具有相似的運算邏輯，但採用了不同的訓練資料集。

在一個實施方式中，本申請實施方式提供的多個網路交互系統可以進行結合。例如，可以採用一個前端伺服器，該前端伺服器可以根據推薦系統提供的素材的期望獎勵值進行篩選素材，也可以根據推薦系統提供的素材的索引量進行篩選素材。如此，前述實施方式提供的推薦系統之間可以為並行關係。前端伺服器接收到訪問請求之後，可以根據預設的規則，選擇一個推薦系統進行回應工作。具體的，例如，前端伺服器接收到用戶端的訪問請求之後，隨機選擇一個推薦系統，如前述提供期望獎勵值的推薦系統，將使用者資訊提供給該推薦系統。或者，在前端伺服器中設置有使用者資訊與推薦系統的對應關係，即預先建立使用者與推薦系統的映射規則，如此前端伺服器接收到訪問請求之後，根據所述對應關係，調用該推薦系統。

本說明書中的各個實施方式均採用遞進的方式描述，各個實施方式之間相同相似的部分互相參見即可，每個實施方式重點說明的都是與其他實施方式的不同之處。

本申請實施方式中提及的伺服器，可以是具有一定運算處理能力的電子設備。其可以具有網路通信端子、處理器和記憶體等。當然，上述伺服器也可以是指運行於所述電子設備中的軟體。上述伺服器還可以為分散式伺服器，可以是具有多個處理器、記憶體、網路通信模組等協同運作的系統。

雖然藉由實施方式描繪了本申請，本領域普通技術人員知道，本申請有許多變形和變化而不脫離本申請的精神，希望所附的權利要求包括這些變形和變化而不脫離本申請的精神。

Claims

一種網路交互系統，包括：前端伺服器和推薦系統；所述前端伺服器，用於接收用戶端的訪問請求；將所述用戶端的使用者資訊提供給所述推薦系統；基於所述推薦系統提供的期望獎勵值在所述推薦系統提供的素材集中篩選得到結果集；將所述結果集發送給所述用戶端；所述推薦系統，用於獲取所述用戶端的使用者資訊對應的使用者特徵集；獲取包括用於頁面顯示的素材的素材集，以及所述素材對應的素材特徵集；根據所述使用者特徵集和所述素材的素材特徵集生成期望獎勵值，其中，所述期望獎勵值為所述素材在所述預設頁面顯示且被點擊時，所述推薦系統得到的獎勵值；將所述素材集和所述期望獎勵值提供給所述前端伺服器。
如申請專利範圍第1項所述的系統，其中，所述結果集中至少包括所述期望獎勵值中最大值對應的素材。
如申請專利範圍第1項所述的系統，其中，所述結果集中包括預設數量個素材；其中，所述結果集中素材的期望獎勵值不小於所述推薦系統提供的素材集中未處於所述結果集的素材的期望獎勵值。
如申請專利範圍第1項所述的系統，其中，所述推薦系統將所述使用者特徵集和所述素材特徵集生成表徵所述使用者資訊和所述素材特徵集對應素材的表徵向量，基於所述表徵向量生成所述素材的期望獎勵值。
如申請專利範圍第1項所述的系統，其中，所述推薦系統將所述前端伺服器回應所述用戶端多次訪問請求過程中，所述推薦系統得到的獎勵值形成累計獎勵值；當所述累計獎勵值不是上述過程中，所述結果集中素材的最大期望獎勵值之和時，將得到所述累計獎勵值的過程資料記錄為偏差資訊；根據所述偏差資訊修正生成所述期望獎勵值的演算法。
如申請專利範圍第5項所述的系統，其中，在所述前端伺服器接收到所述用戶端發出的訂單資訊時，所述推薦系統判斷得到的所述累計獎勵值是否為所述用戶端多次訪問請求過程中，所述結果集中所述最大期望獎勵值之和。
如申請專利範圍第1項所述的系統，其中，在所述預設頁面發生點擊事件時，若得到的獎勵值不是所述結果集中素材的最大期望獎勵值，記錄偏差資訊；其中所述偏差資訊包括所述獎勵值對應的素材資訊；根據所述偏差資訊修正生成所述期望獎勵值的演算法。
如申請專利範圍第5或7項所述的系統，其中，所述推薦系統根據預設時間長度中記錄的所述偏差資訊修正所述演算法。
如申請專利範圍第5或7項所述的系統，其中，所述推薦系統在所述偏差資訊達到預設資料量時，根據所述偏差資訊修正所述演算法。
如申請專利範圍第1項所述的系統，其中，所述推薦系統中包括至少二個期望獎勵值運算模型；其中，至少二個期望獎勵值運算模型具有相似運算邏輯，但生成所述至少二個期望獎勵值運算模型的訓練資料集不同。
如申請專利範圍第10項所述的系統，其中，所述期望獎勵值為所述至少二個期望獎勵值運算模型輸出的預測值的加權求和，或者均值。