TWI677838B - 點擊率預估模型建立方法、裝置及資訊提供方法、系統 - Google Patents

點擊率預估模型建立方法、裝置及資訊提供方法、系統 Download PDF

Info

Publication number
TWI677838B
TWI677838B TW103134248A TW103134248A TWI677838B TW I677838 B TWI677838 B TW I677838B TW 103134248 A TW103134248 A TW 103134248A TW 103134248 A TW103134248 A TW 103134248A TW I677838 B TWI677838 B TW I677838B
Authority
TW
Taiwan
Prior art keywords
ctr
features
feature
historical
order
Prior art date
Application number
TW103134248A
Other languages
English (en)
Other versions
TW201543394A (zh
Inventor
顧進傑
黃立輝
鄭偉
黃鵬
林鋒
Original Assignee
香港商阿里巴巴集團服務有限公司
Alibaba Group Services Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司, Alibaba Group Services Limited filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201543394A publication Critical patent/TW201543394A/zh
Application granted granted Critical
Publication of TWI677838B publication Critical patent/TWI677838B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0246Traffic

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本發明公開了一種點擊率預估模型建立方法、裝置及資訊提供方法、系統,該方法包括:從與當前語言頻道對應的歷史資料中提取出基礎特徵,組合基礎特徵得到組合特徵;根據基礎特徵和組合特徵得到有效高階特徵,並計算有效高階特徵的權重;將有效高階特徵及其對應的權重帶入到CTR計算公式中,得到當前語言頻道的CTR預估模型。該方案實現建立每個語言頻道的CTR預估模型,建立CTR預估模型的效率和CTR預估模型的準確性相對於現有的方式也有很大程度的提高。

Description

點擊率預估模型建立方法、裝置及資訊提供方法、系統
本發明係關於網路技術領域,尤其係關於一種點擊率(Click Through Ratio,CTR)預估模型建立方法、裝置及資訊提供方法、系統。
隨著電子商務的全球化發展,越來越多的電子商務網站採用多個語言頻道,例如某電子商務網站可以同時提供中文、西班牙文、英文、法文、日文、韓文六個語言頻道,由於面向地區的差異,這些語言頻道中包含的資訊可能不完全相同。
若用戶在電子商務網站上搜尋需要的商品,可以通過搜尋引擎輸入搜尋詞(query),伺服器根據該query挑選出相關的展示資訊並對這些展示資訊進行CTR預估,按照CTR預估結果將排序後的展示資訊提供給用戶,以供用戶選擇。將展示資訊在電子商務網站上被點擊次數與被展示次數的比值定義為CTR,用來表徵展示資訊被關注的程度。CTR預估是電子商務網站提供展示資訊時非常重要 的一個環節,在對展示資訊進行CTR預估時需要使用CTR預估模型,而CTR預估模型準確性的高低會直接影響提供展示資訊的準確性和用戶體驗。
目前,CTR預估模型大多是基於回饋特徵的線性模型,首先由人工從歷史特徵中排定出有效特徵,並獲取這些有效特徵的歷史點擊率(Historical Click Through Ratio,HCTR),將基於有效特徵的HCTR作為線性模型的輸入特徵,通過邏輯回歸模型(Logistic Regression,LR)訓練,由人工建立一個CTR預估模型。當電子商務網站包括多個語言頻道時,針對每個語言頻道都需要建立一個CTR預估模型,每個語言頻道的歷史特徵都要由人工確定,這種方式過分受限於人為因素,導致建立CTR預估模型的效率和CTR預估模型的準確性都非常低。因此,目前極需一種適用於多個語言頻道的CTR預估模型自動建立方法。
本發明實施例提供一種CTR預估模型建立方法、裝置及資訊提供方法、系統,用以實現自動建立適用於多個語言頻道的CTR預估模型。
根據本發明實施例,提供一種資訊提供方法,包括:從與當前語言頻道對應的歷史資料中提取出基礎特徵,組合所述基礎特徵得到組合特徵;根據所述基礎特徵和所述組合特徵得到有效高階特 徵,並計算所述有效高階特徵的權重;以及將所述有效高階特徵及其對應的權重帶入到點擊率CTR計算公式中,得到所述當前語言頻道的CTR預估模型。
具體的,從與當前語言頻道對應的歷史資料中提取出基礎特徵,具體包括:獲取所述歷史資料包括的歷史特徵;將所述歷史特徵按照最小語義單元進行分割,得到所述基礎特徵。
具體的,組合所述基礎特徵得到組合特徵,具體包括:組合任意兩個所述基礎特徵得到候選組合特徵;從所述歷史資料包括的歷史特徵的歷史CTR中查找所述候選組合特徵的歷史CTR;根據所述基礎特徵的預設權重、所述候選組合特徵的歷史CTR和回歸函數計算所述候選組合特徵的權重;選取權重大於第一設定閾值的候選組合特徵得到所述組合特徵。
具體的,根據所述基礎特徵和所述組合特徵得到有效高階特徵,並計算所述有效高階特徵的權重,具體包括:組合所述基礎特徵和所述組合特徵中的至少一者得到候選高階特徵;從所述候選高階特徵中選取出有效高階特徵;從所述歷史資料包括的歷史特徵的歷史CTR中查找 所述有效高階特徵的歷史CTR;根據所述有效高階特徵的歷史CTR和CTR計算公式計算所述有效高階特徵的權重。
具體的,從所述候選高階特徵中選取出有效高階特徵,具體包括至少一種:從所述歷史特徵的歷史CTR中獲取所述候選高階特徵的歷史CTR,選取歷史CTR大於第二設定閾值的候選高階特徵得到所述有效高階特徵;將所述候選高階特徵分別帶入包括損失函數和正則化項的目標函數中,對所述目標函數求梯度,選取所述損失函數的梯度的絕對值大於所述正則化項的係數對應的候選高階特徵得到所述有效高階特徵。
可選的,得到所述當前語言頻道的CTR預估模型之後,還包括:評估所述當前語言頻道的CTR預估模型是否合格;若所述當前語言頻道的CTR預估模型不合格,則重新執行所述從與當前語言頻道對應的歷史資料中提取出基礎特徵的步驟。
具體的,評估所述當前語言頻道的CTR預估模型是否合格,具體包括:若所述有效高階特徵的數量未達到設定數值,根據所述有效高階特徵及其對應的權重繪製受試者工作特徵ROC曲線,計算所述ROC曲線的曲線下面積AUC值,若AUC值大於第三設定閾值,則確定所述當前語言頻道的CTR 預估模型合格,若AUC值小於或者等於所述第三設定閾值,則確定所述當前語言頻道的CTR預估模型不合格;或者,若所述有效高階特徵的數量未達到所述設定數值,將所述有效高階特徵帶入所述當前語言頻道的CTR預估模型中計算所述有效高階特徵的預估CTR,從所述歷史資料包括的歷史特徵的歷史CTR中獲取所述有效高階特徵的歷史CTR,計算所述有效高階特徵的歷史CTR與預估CTR的均方誤差MSE,若所述MSE小於第四設定閾值,則確定所述當前語言頻道的CTR預估模型合格,若所述MSE小於或者等於所述第四設定閾值,則確定所述當前語言頻道的CTR預估模型不合格。
還提供一種點擊率預估模型建立裝置,包括:提取組合單元,用於從與當前語言頻道對應的歷史資料中提取出基礎特徵,組合所述基礎特徵得到組合特徵;計算單元,用於根據所述基礎特徵和所述組合特徵得到有效高階特徵,並計算有效高階特徵的權重;以及獲取單元,用於將所述有效高階特徵及其對應的權重帶入到點擊率CTR計算公式中,得到所述當前語言頻道的CTR預估模型。
具體的,所述提取組合單元,具體用於:獲取所述歷史資料包括的歷史特徵;將所述歷史特徵按照最小語義單元進行分割,得到所述基礎特徵。
具體的,所述提取組合單元,具體用於:組合任意兩個所述基礎特徵組合得到候選組合特徵;從所述歷史資料包括的歷史特徵的歷史CTR中查找所述候選組合特徵的歷史CTR;根據所述基礎特徵的預設權重、所述候選組合特徵的歷史CTR和回歸函數計算所述候選組合特徵的權重;選取權重大於第一設定閾值的候選組合特徵得到所述組合特徵。
具體的,所述計算單元,具體用於:組合所述基礎特徵和所述組合特徵中的至少一者得到候選高階特徵;從所述候選高階特徵中選取出有效高階特徵;從所述歷史資料包括的歷史特徵的歷史CTR中查找所述有效高階特徵的歷史CTR;根據所述有效高階特徵的歷史CTR和CTR計算公式計算所述有效高階特徵的權重。
具體的,所述計算單元,用於從所述候選高階特徵中選取出有效高階特徵,具體用於至少一種:從所述歷史特徵的歷史CTR中獲取所述候選高階特徵的歷史CTR,選取歷史CTR大於第二設定閾值的候選高階特徵得到所述有效高階特徵;將所述候選高階特徵分別帶入包括損失函數和正則化項的目標函數中,對所述目標函數求梯度,選取所述損失函數的梯度的絕對值大於所述正則化項的係數對應的候選 高階特徵得到所述有效高階特徵。
可選的,還包括評估單元,用於:評估所述當前語言頻道的CTR預估模型是否合格;若所述當前語言頻道的CTR預估模型不合格,則重新轉向所述提取組合單元。
具體的,所述評估單元,具體用於:若所述有效高階特徵的數量未達到設定數值,根據所述有效高階特徵及其對應的權重繪製受試者工作特徵ROC曲線,計算所述ROC曲線的曲線下面積AUC值,若AUC值大於第三設定閾值,則確定所述當前語言頻道的CTR預估模型合格,若AUC值小於或者等於所述第三設定閾值,則確定所述當前語言頻道的CTR預估模型不合格;或者,若所述有效高階特徵的數量未達到所述設定數值,將所述有效高階特徵帶入所述當前語言頻道的CTR預估模型中計算所述有效高階特徵的預估CTR,從所述歷史資料包括的歷史特徵的歷史CTR中獲取所述有效高階特徵的歷史CTR,計算所述有效高階特徵的歷史CTR與預估CTR的均方誤差MSE,若所述MSE小於第四設定閾值,則確定所述當前語言頻道的CTR預估模型合格,若所述MSE小於或者等於所述第四設定閾值,則確定所述當前語言頻道的CTR預估模型不合格。
還提供一種資訊提供方法,包括:根據用戶輸入的搜尋資訊,確定與所述搜尋資訊匹配 的語言頻道以及候選展示資訊;獲取所述語言頻道的點擊率CTR預估模型,並使用所述CTR預估模型計算每個候選展示資訊的預估CTR,其中,所述CTR預估模型是根據申請專利範圍第1-6所述的CTR預估模型建立方法建立的;以及按照預估CTR從大到小的順序對候選展示資訊進行排序,將設定位置之前的候選展示資訊提供給所述用戶。
還提供一種資訊提供系統,包括客戶端和資訊提供伺服器,其中:所述客戶端,用於將用戶輸入的搜尋資訊提供給所述資訊提供伺服器,以及將所述資訊提供伺服器搜尋到的展示資訊提供給用戶;以及所述資訊提供伺服器,用於根據用戶輸入的搜尋資訊,確定與所述搜尋資訊匹配的語言頻道以及候選展示資訊;獲取所述語言頻道對應的點擊率CTR預估模型,並使用所述CTR預估模型計算每個候選展示資訊的預估CTR;按照預估CTR從大到小的順序對候選展示資訊進行排序,將設定位置之前的候選展示資訊提供給所述用戶。
本發明實施例提供的點擊率預估模型建立方法、裝置及資訊提供方法、系統,從與當前語言頻道對應的歷史資料中提取出基礎特徵,組合基礎特徵得到組合特徵;根據基礎特徵和組合特徵得到有效高階特徵,並計算有效高階特徵的權重;將有效高階特徵及其對應的權重帶入到點擊率CTR計算公式中,得到當前語言頻道的CTR預估模 型,從而實現建立每個語言頻道的CTR預估模型,建立CTR預估模型的效率和CTR預估模型的準確性相對於人工參與的方式也有很大程度的提高。
1‧‧‧客戶端
2‧‧‧資訊提供伺服器
31‧‧‧提取組合單元
32‧‧‧計算單元
33‧‧‧獲取單元
34‧‧‧評估單元
此處所說明的圖式用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在圖式中:圖1為本發明一種實施例中資訊提供系統的結構示意圖;圖2為本發明一種實施例中資訊提供方法的流程圖;圖3為本發明一種實施例中CTR預估模型建立方法的流程圖;圖4為本發明一種實施例中CTR預估模型建立裝置的結構示意圖;以及圖5為本發明另一種實施例中較佳的CTR預估模型建立裝置的結構示意圖。
為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合圖式和實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。
為了實現自動建立適用於多個語言頻道的CTR預估模型,本發明實施例提供的一種資訊提供方法,通過如圖1所示的資訊提供系統實現,該資訊提供系統包括客戶端1和與客戶端1通信(有線或者無線)的資訊提供伺服器2,該資訊提供系統中可以根據需要包括一個或多個客戶端1,圖1中給出的是包括兩個客戶端1的情況。其中:客戶端1,用於將用戶輸入的搜尋資訊提供給資訊提供伺服器2,以及將資訊提供伺服器2搜尋到的展示資訊提供給用戶。
資訊提供伺服器2,用於根據用戶通過客戶端1輸入的搜尋資訊,確定與搜尋資訊匹配的語言頻道以及候選展示資訊;獲取語言頻道對應的CTR預估模型,並使用CTR預估模型計算每個候選展示資訊的預估CTR;按照預估CTR從大到小的順序對候選展示資訊進行排序,將設定位置之前的候選展示資訊提供給用戶。
當資訊提供伺服器2用於電子商務網站時,搜尋資訊是用戶為了搜尋展示資訊而輸入的搜尋詞,可以用query表示,展示資訊是商品廣告資訊。
例如,用戶想要購買男士襯衫時,可以在搜尋引擎上輸入“男士襯衫”,“男士襯衫”即為搜尋資訊;資訊提供伺服器根據用戶輸入的搜尋資訊搜尋相關的商品廣告資訊,然後提供給用戶進行選擇。
上述資訊提供方法的流程如圖2所示,具體步驟如下:
S21:根據用戶輸入的搜尋資訊,確定與搜尋資訊匹配的語言頻道以及候選展示資訊。
一般作為瀏覽方的用戶可以通過在客戶端輸入query的方式查找自己感興趣的展示資訊,當電子商務網站包括多個語言頻道時,伺服器側首先要根據用戶輸入的query確定用戶想要搜尋的語言頻道,例如當用戶在電子商務網站的英文主站上輸入西班牙文的query時,可以確定該用戶要在電子商務網站的西班牙文頻道進行搜尋。然後可以將西班牙文的展示資訊作為候選展示資訊,候選展示資訊是有可能提供給用戶的展示資訊。
S22:獲取語言頻道的CTR預估模型,並使用CTR預估模型計算每個候選展示資訊的預估CTR。
一般來說,不同語言頻道上的展示資訊被關注的程度是不同的。例如,在電子商務網站的英文頻道上,華為手機賣的最好,而在韓文頻道上,三星手機賣的最好,也就是說,在英文頻道上CTR(華為)>CTR(三星),而在韓文頻道上CTR(三星)>CTR(華為),相應地,每個語言頻道對應的CTR預估模型也應該不同。
可以預先針對每個語言頻道建立CTR預估模型,在確定與搜尋資訊匹配的語言頻道後,需要獲取該語言頻道的CTR預估模型,並使用該CTR預估模型計算每個候選展示資訊的預估CTR。
CTR預估模型可以採用公式CTR計算公式表示:
Figure TWI677838B_D0001
其中,x i 表示第i個有效高階特徵的值,其為離散值,具體地,當候選展示資訊存在該有效高階特徵時取值為1,當候選展示資訊不存在該有效高階特徵時取值為0,X為有效高階特徵的值x i 的集合,ω i 表示第i個有效高階特徵的權重,有效高階特徵的權重是在建立CTR預估模型時計算出來的,取值範圍為R,R為實數,ω 0 表示初始化值。其中,有效高階特徵可以包括多個特徵,特徵的種類也比較多,例如可以包括query、展示資訊位置、展示資訊屬性等等。
在使用CTR預估模型計算候選展示資訊的預估CTR時,可以首先確定該候選展示資訊包括CTR預估模型中的有效高階特徵,也就是確定的x i ,然後將其帶入CTR預估模型中計算展示資訊的預估CTR。
S23:按照預估CTR從大到小的順序對候選展示資訊進行排序,將設定位置之前的候選展示資訊提供給用戶。
計算出所有候選展示資訊的預估CTR後,可以按照預估CTR大小將展示資訊進行排序,然後再選取一部分候選展示資訊提供給用戶,可以根據不同的需求確定提供給用戶的候選展示資訊的數量,例如可以選取預估CTR排序前10位元的候選展示資訊,這時設定位置為10,當然也可以根據需要設置為其它數值。
還可以統計設定時間內每個有效高階特徵的CTR,也就是每個有效高階特徵在設定時間內被點擊次數與被展示次數的比值,由於展示資訊中可能對應多個有效高階特 徵,所以不僅可以統計展示資訊的CTR,還可以統計有效特徵的CTR,然後保存有效高階特徵及其對應的CTR作為歷史資料,用於建立預估CTR模型使用。設定時間可以根據實際需要進行確定,例如設置為20天、1個月等等。
下面介紹建立CTR預估模型的方法,該方法適用於建立每個語言頻道的CTR預估模型,流程如圖3所示,包括如下步驟:
S31:從與當前語言頻道對應的歷史資料中提取出基礎特徵,組合基礎特徵得到組合特徵。
當前語言頻道可以是電子商務網站的任一個語言頻道,與當前語言頻道對應的歷史資料可以是預先統計的設定時間的有效高階特徵及其對應的CTR,由於統計的是過去某段時間內的CTR,因此,歷史資料包括的有效高階特徵是歷史特徵,歷史資料包括的CTR是歷史CTR;還可以翻譯其它語言頻道的歷史資料得到與當前語言頻道對應的歷史資料;還可以從其它網站挖掘與當前語言頻道對應的歷史資料。歷史資料一般是離線資料,其儲存在特定的資料庫伺服器中。
由於這些歷史資料中的歷史特徵可能不是最小的語義單元,因此可以從其中提取出基礎特徵,然後再組合這些基礎特徵得到組合特徵,組合特徵可以包括兩個或者兩個以上的基礎特徵。
S32:根據基礎特徵和組合特徵得到有效高階特徵, 並計算有效高階特徵的權重。
有時將基礎特徵和組合特徵進行進行組合得到的高階特徵在建立CTR預估模型時更有意義,例如對於襯衫來說,同時出現顏色、款式、品牌等等這些特徵時被關注的程度比較高,而僅出現顏色這一個特徵時被關注的程度會比較低,因此,可以根據基礎特徵和組合特徵篩選出有效高階特徵,然後再計算有效高階特徵的權重。
S33:將有效高階特徵及其對應的權重帶入到CTR計算公式中,得到當前語言頻道的CTR預估模型。
將有效高階特徵及其對應的權重帶入到公式(1)中,這樣就得到當前語言頻道的CTR預估模型。
該方案能夠實現建立每個語言頻道的CTR預估模型,建立CTR預估模型的效率和CTR預估模型的準確性相對於人工參與的方式也有很大程度的提高。在一些實施方式中,也可以針對兩個或者兩個以上的語言頻道建立一個合併的CTR預估模型。
下面進一步詳細描述上述各個步驟。
具體的,上述S31中的從與當前語言頻道對應的歷史資料中提取出基礎特徵,具體包括:獲取歷史資料包括的歷史特徵;將獲取的歷史特徵按照最小語義單元進行分割,得到基礎特徵。
例如,獲取的歷史特徵為“宅男 遊戲 廉價衣服”,該歷史特徵可以按照最小語義單元進一步分割成 “宅男”、“遊戲”、“廉價”和“衣服”,這些就可以作為基礎特徵。
具體的,上述S31中的組合基礎特徵得到組合特徵,具體包括:組合任意兩個基礎特徵組合得到候選組合特徵;從歷史資料包括的歷史特徵的歷史CTR中查找候選組合特徵的歷史CTR;根據基礎特徵的預設權重、候選組合特徵的歷史CTR和回歸函數計算候選組合特徵的權重;選取權重大於第一設定閾值的候選組合特徵得到組合特徵。
可以將任意兩個基礎特徵組合後作為組合特徵,這樣得到的組合特徵的數量會非常多,而其中有些對於建立CTR預估模型會產生干擾,因此,可以將任意兩個基礎特徵組合後作為候選組合特徵,然後進一步進行篩選。
候選組合特徵在歷史資料中都可以找到,獲取歷史資料中候選組合特徵的歷史CTR,基礎特徵的預設權重是預先設定的,將基礎特徵的預設權重、候選組合特徵的歷史CTR帶入到回歸函數中計算候選組合特徵的權重,其中,回歸函數為
Figure TWI677838B_D0002
Figure TWI677838B_D0003
F(X)為候選組合特徵ij的歷史CTR,ω i 表示基礎特徵i的預設權重,ω 0 表示初始化值,x i 表示基礎特徵i的值,X為n個基礎特徵x i 的值的集合,ω ij 表示組合特徵ij的預設權重,x ij 表示組合特徵ij的值。
具體的,上述S32中的根據基礎特徵和組合特徵得到有效高階特徵,並計算有效高階特徵的權重,具體包括:組合基礎特徵和組合特徵中的至少一者得到候選高階特徵;從候選高階特徵中選取出有效高階特徵;從歷史資料包括的歷史特徵的歷史CTR中查找有效高階特徵的歷史CTR;根據有效高階特徵的歷史CTR和CTR計算公式計算有效高階特徵的權重。
可以將基礎特徵進行組合得到候選高階特徵,也可以將組合特徵進行組合得到候選高階特徵,還可以將基礎特徵和組合特徵進行組合得到候選高階特徵。
在公式(1)中,有效高階特徵的歷史CTR和x i 一定時,就可以解出其中的ω i
具體的,上述從候選高階特徵中選取出有效高階特徵,具體包括以下兩種方式之一或者組合:第一種方式,從歷史特徵的歷史CTR中獲取候選高階特徵的歷史CTR,選取歷史CTR大於第二設定閾值的候選高階特徵得到有效高階特徵。
當歷史CTR小於第二設定閾值時,該候選高階特徵對於建立CTR預估模型的貢獻不是很大,可以忽略,因此,可以選取歷史CTR大於第二設定閾值的候選高階特徵得到有效高階特徵。第二設定閾值可以根據實際需要進行設定。
第二種方式,將候選高階特徵分別帶入包括損失函數和正則化項的目標函數中,對目標函數求梯度,選取損失函數的梯度的絕對值大於正則化項的係數對應的候選高階特徵得到有效高階特徵。
目標函數可以為
Figure TWI677838B_D0004
,其中,L(ω,x)為損失函數,Ω(ω)為正則化項,
Figure TWI677838B_D0005
X i 表示第i個展示資訊中包括的第j個候選高階特徵的值的集合,ω j 表示第j個候選高階特徵的預設權重,x j 表示第j個候選高階特徵的值,y i 表示第i個展示資訊的歷史CTR,m為候選高階特徵的總數,n表示展示資訊的數量。當
Figure TWI677838B_D0006
時,第j個候選高階特徵極有可能是對建立CTR預估模型有用的特徵,選取這部分候選高階特徵作為有效高階特徵。
可選的,上述S33中的得到當前語言頻道的CTR預估模型之後,還包括:評估當前語言頻道的CTR預估模型是否合格;若當前語言頻道的CTR預估模型不合格,則重新執行S31。
可以對得到的CTR預估模型進行評估,如果評估結果為合格,則將該CTR預估模型用於上述資訊提供方法中,然後保存設定時間內的有效高階特徵的CTR,保存的資料又用於建立CTR預估模型,這樣經過反復的反覆運算就可以得到更好的CTR預估模型;如果評估結果為不 合格,則可以重新執行上述建立CTR預估模型的方法,重新建立CTR預估模型。
具體的,上述評估當前語言頻道的CTR預估模型是否合格,具體可以包括以下兩種方式:第一種方式,若有效高階特徵的數量未達到設定數值,根據當前語言頻道的CTR預估模型中的有效高階特徵及其對應的權重繪製受試者工作特徵(Receiver Operating Characteristic Curve,ROC)曲線,計算ROC曲線的曲線下面積(Area Under the Curve,AUC)值,若AUC值大於第三設定閾值,則確定當前語言頻道的CTR預估模型合格,若AUC值小於或者等於第三設定閾值,則確定當前語言頻道的CTR預估模型不合格。
有效高階特徵的數量也會影響到建立的CTR預估模型是否合格,若有效高階特徵的數量過少,可能會影響CTR預估模型的預估結果的準確性,所以,可以判斷有效特徵的數量是否未達到設定數值,若未達到,使用第一種方式評估CTR預估模型是否合格。
其中,設定數值可以根據實際需要進行設定,例如設為1萬、5萬、10萬等等,第三設定閾值可以設定為0.5到1之間的任意數值,數值越大說明CTR預估模型的預估效果越好。
第二種方式,若有效高階特徵的數量未達到設定數值,將有效高階特徵帶入當前語言頻道的CTR預估模型中計算有效高階特徵的預估CTR,從歷史資料包括的歷史 特徵的歷史CTR中獲取有效高階特徵的歷史CTR,計算有效高階特徵的歷史CTR與預估CTR的均方誤差(Mean Squared Error,MSE),若MSE小於第四設定閾值,則確定當前語言頻道的CTR預估模型合格,若MSE小於或者等於第四設定閾值,則確定當前語言頻道的CTR預估模型不合格。
在確定有效高階特徵的數量未達到設定資料值後,可以計算有效高階特徵的歷史CTR與預估CTR之間的MSE,若該MSE過大,那就說明該CTR預估模型是不合格的;反之,說明該CTR模型是合格的。
其中,第四設定閾值可以根據實際需要進行設定,有效高階特徵的MSE可以採用下列公式計算:
Figure TWI677838B_D0007
Figure TWI677838B_D0008
為第i個有效高階特徵的預估CTR,Y i 為第i個有效高階特徵的歷史CTR。
從上述兩種方法可以看出,ACU值反應對展示資訊進行排序能力的強弱,MSE反應預估值與真實值的差距。下表中的資料表示針對西班牙文頻道採用本發明中的CTR預估模型與採用現有技術中的CTR預估模型進行CTR預估的結果對比:
其中,AUC值已經接近0.9,是一個比較高的值,同時MSE基本接近點擊率的均值。與現有技術中的CTR預估模型相對比,AUC值提升了0.2,MSE提升幅度也很明顯。可見,採用本發明中的CTR預估模型進行CTR預估可以達到較好的效果。
基於同一發明構思,本發明實施例還提供的一種CTR預估模型建立裝置,該裝置可以設置在如圖1所示的資訊提供系統中的資訊提供伺服器2中,該裝置的結構如圖4所示,包括:
提取組合單元31,用於從與當前語言頻道對應的歷史資料中提取出基礎特徵,組合基礎特徵得到組合特徵。
計算單元32,用於根據基礎特徵和組合特徵得到有效高階特徵,並計算有效高階特徵的權重。
獲取單元33,用於將有效高階特徵及其對應的權重帶入到點擊率CTR計算公式中,得到當前語言頻道的CTR預估模型。
具體的,上述提取組合單元31,具體用於:獲取歷史資料包括的歷史特徵;將獲取的歷史特徵按照最小語義單元進行分割,得到基礎特徵。
具體的,上述提取組合單元31,具體用於:組合任意兩個基礎特徵組合得到候選組合特徵;從歷史資料包括的歷史特徵的歷史CTR中查找候選組合特徵的歷史CTR; 根據基礎特徵的預設權重、候選組合特徵的歷史CTR和回歸函數計算候選組合特徵的權重;選取權重大於第一設定閾值的候選組合特徵得到組合特徵。
具體的,上述計算單元32,具體用於:組合基礎特徵和組合特徵中的至少一者得到候選高階特徵;從候選高階特徵中選取出有效高階特徵;從歷史資料包括的歷史特徵的歷史CTR中查找有效高階特徵的歷史CTR;根據有效高階特徵的歷史CTR和CTR計算公式計算有效高階特徵的權重。
具體的,上述計算單元32,用於從候選高階特徵中選取出有效高階特徵,具體用於至少一種:從歷史特徵的歷史CTR中獲取候選高階特徵的歷史CTR,選取歷史CTR大於第二設定閾值的候選高階特徵得到有效高階特徵;將候選高階特徵分別帶入包括損失函數和正則化項的目標函數中,對目標函數求梯度,選取損失函數的梯度的絕對值大於正則化項的係數對應的候選高階特徵得到有效高階特徵。
請參閱圖5,本發明實施例還提供另一種CTR預估模型建立裝置,其基本結構與圖4描述的CTR預估模型建立裝置類似,以相同標號標示的元件省略不表。進一步, 圖5所示的CTR預估模型建立裝置還包括評估單元34,用於:評估當前語言頻道的CTR預估模型是否合格;若當前語言頻道的CTR預估模型不合格,則重新轉向提取組合單元31。
具體的,上述評估單元34,具體用於:若有效高階特徵的數量未達到設定數值,根據有效高階特徵及其對應的權重繪製ROC曲線,計算ROC曲線的AUC值,若AUC值大於第三設定閾值,則確定當前語言頻道的CTR預估模型合格,若AUC值小於或者等於第三設定閾值,則確定當前語言頻道的CTR預估模型不合格;或者,若有效高階特徵的數量未達到設定數值,將有效高階特徵帶入當前語言頻道的CTR預估模型中計算有效高階特徵的預估CTR,從歷史資料包括的歷史特徵的歷史CTR中獲取有效高階特徵的歷史CTR,計算有效高階特徵的歷史CTR與預估CTR的MSE,若MSE小於第四設定閾值,則確定當前語言頻道的CTR預估模型合格,若MSE小於或者等於第四設定閾值,則確定當前語言頻道的CTR預估模型不合格。
上述說明示出並描述了本發明的較佳實施例,但如前所述,應當理解本發明並非局限於本文所披露的形式,不應看作是對其他實施例的排除,而可用於各種其他組合、修改和環境,並能夠在本文所述發明構想範圍內,通過上 述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發明的精神和範圍,則都應在本發明所附申請專利範圍的保護範圍內。

Claims (15)

  1. 一種點擊率預估模型建立方法,包括:確定與搜尋資訊匹配的語言頻道;從與當前所述搜尋資訊匹配的所述語言頻道對應的歷史資料中的語意單元中提取出基礎特徵,組合所述基礎特徵得到組合特徵;根據所述基礎特徵和所述組合特徵得到有效高階特徵,並計算所述有效高階特徵的權重;以及將所述有效高階特徵及其對應的權重帶入到點擊率CTR計算公式中,得到所述當前語言頻道的CTR預估模型。
  2. 如申請專利範圍第1項所述的方法,其中,從與當前語言頻道對應的歷史資料中提取出基礎特徵,具體包括:獲取所述歷史資料包括的歷史特徵;將所述歷史特徵按照最小語義單元進行分割,得到所述基礎特徵。
  3. 如申請專利範圍第1項所述的方法,其中,組合所述基礎特徵得到組合特徵,具體包括:組合任意兩個所述基礎特徵得到候選組合特徵;從所述歷史資料包括的歷史特徵的歷史CTR中查找所述候選組合特徵的歷史CTR;根據所述基礎特徵的預設權重、所述候選組合特徵的歷史CTR和回歸函數計算所述候選組合特徵的權重;選取權重大於第一設定閾值的候選組合特徵得到所述組合特徵。
  4. 如申請專利範圍第1項所述的方法,其中,根據所述基礎特徵和所述組合特徵得到有效高階特徵,並計算所述有效高階特徵的權重,具體包括:組合所述基礎特徵和所述組合特徵中的至少一者得到候選高階特徵;從所述候選高階特徵中選取出有效高階特徵;從所述歷史資料包括的歷史特徵的歷史CTR中查找所述有效高階特徵的歷史CTR;根據所述有效高階特徵的歷史CTR和CTR計算公式計算所述有效高階特徵的權重。
  5. 如申請專利範圍第4項所述的方法,其中,從所述候選高階特徵中選取出有效高階特徵,具體包括至少一種:從所述歷史特徵的歷史CTR中獲取所述候選高階特徵的歷史CTR,選取歷史CTR大於第二設定閾值的候選高階特徵得到所述有效高階特徵;將所述候選高階特徵分別帶入包括損失函數和正則化項的目標函數中,對所述目標函數求梯度,選取所述損失函數的梯度的絕對值大於所述正則化項的係數對應的候選高階特徵得到所述有效高階特徵。
  6. 如申請專利範圍第1項至第5項中任一項所述的方法,其中,得到所述當前語言頻道的CTR預估模型之後,還包括:評估所述當前語言頻道的CTR預估模型是否合格;若所述當前語言頻道的CTR預估模型不合格,則重新執行所述從與當前語言頻道對應的歷史資料中提取出基礎特徵的步驟。
  7. 如申請專利範圍第6項所述的方法,其中,評估所述當前語言頻道的CTR預估模型是否合格,具體包括:若所述有效高階特徵的數量未達到設定數值,根據所述有效高階特徵及其對應的權重繪製受試者工作特徵ROC曲線,計算所述ROC曲線的曲線下面積AUC值,若所述AUC值大於第三設定閾值,則確定所述當前語言頻道的CTR預估模型合格,若所述AUC值小於或者等於所述第三設定閾值,則確定所述當前語言頻道的CTR預估模型不合格;或者,若所述有效高階特徵的數量未達到所述設定數值,將所述有效高階特徵帶入所述當前語言頻道的CTR預估模型中計算所述有效高階特徵的預估CTR,從所述歷史資料包括的歷史特徵的歷史CTR中獲取所述有效高階特徵的歷史CTR,計算所述有效高階特徵的歷史CTR與預估CTR的均方誤差MSE,若所述MSE小於第四設定閾值,則確定所述當前語言頻道的CTR預估模型合格,若所述MSE小於或者等於所述第四設定閾值,則確定所述當前語言頻道的CTR預估模型不合格。
  8. 一種點擊率預估模型建立裝置,包括:提取組合單元,確定與搜尋資訊匹配的語言頻道及用於從與當前所述搜尋資訊匹配的所述語言頻道對應的歷史資料中的語意單元中提取出基礎特徵,組合所述基礎特徵得到組合特徵;計算單元,用於根據所述基礎特徵和所述組合特徵得到有效高階特徵,並計算有效高階特徵的權重;以及獲取單元,用於將所述有效高階特徵及其對應的權重帶入到點擊率CTR計算公式中,得到所述當前語言頻道的CTR預估模型。
  9. 如申請專利範圍第8項所述的裝置,其中,所述提取組合單元,具體用於:獲取所述歷史資料包括的歷史特徵;將所述歷史特徵按照最小語義單元進行分割,得到所述基礎特徵。
  10. 如申請專利範圍第8項所述的裝置,其中,所述提取組合單元,具體用於:組合任意兩個所述基礎特徵組合得到候選組合特徵;從所述歷史資料包括的歷史特徵的歷史CTR中查找所述候選組合特徵的歷史CTR;根據所述基礎特徵的預設權重、所述候選組合特徵的歷史CTR和回歸函數計算所述候選組合特徵的權重;選取權重大於第一設定閾值的候選組合特徵得到所述組合特徵。
  11. 如申請專利範圍第8項所述的裝置,其中,所述計算單元,具體用於:組合所述基礎特徵和所述組合特徵中的至少一者得到候選高階特徵;從所述候選高階特徵中選取出有效高階特徵;從所述歷史資料包括的歷史特徵的歷史CTR中查找所述有效高階特徵的歷史CTR;根據所述有效高階特徵的歷史CTR和CTR計算公式計算所述有效高階特徵的權重。
  12. 如申請專利範圍第11項所述的裝置,其中,所述計算單元,用於從所述候選高階特徵中選取出有效高階特徵,具體用於至少一種:從所述歷史特徵的歷史CTR中獲取所述候選高階特徵的歷史CTR,選取歷史CTR大於第二設定閾值的候選高階特徵得到所述有效高階特徵;將所述候選高階特徵分別帶入包括損失函數和正則化項的目標函數中,對所述目標函數求梯度,選取所述損失函數的梯度的絕對值大於所述正則化項的係數對應的候選高階特徵得到所述有效高階特徵。
  13. 如申請專利範圍第8項至第12項中任一項所述的裝置,其中,還包括評估單元,用於:評估所述當前語言頻道的CTR預估模型是否合格;若所述當前語言頻道的CTR預估模型不合格,則重新轉向所述提取組合單元。
  14. 如申請專利範圍第13項所述的裝置,其中,所述評估單元,具體用於:若所述有效高階特徵的數量未達到設定數值,根據所述有效高階特徵及其對應的權重繪製受試者工作特徵ROC曲線,計算所述ROC曲線的曲線下面積AUC值,若AUC值大於第三設定閾值,則確定所述當前語言頻道的CTR預估模型合格,若AUC值小於或者等於所述第三設定閾值,則確定所述當前語言頻道的CTR預估模型不合格;或者,若所述有效高階特徵的數量未達到所述設定數值,將所述有效高階特徵帶入所述當前語言頻道的CTR預估模型中計算所述有效高階特徵的預估CTR,從所述歷史資料包括的歷史特徵的歷史CTR中獲取所述有效高階特徵的歷史CTR,計算所述有效高階特徵的歷史CTR與預估CTR的均方誤差MSE,若所述MSE小於第四設定閾值,則確定所述當前語言頻道的CTR預估模型合格,若所述MSE小於或者等於所述第四設定閾值,則確定所述當前語言頻道的CTR預估模型不合格。
  15. 一種資訊提供方法,包括:根據用戶輸入的搜尋資訊,確定與所述搜尋資訊匹配的語言頻道以及候選展示資訊;獲取所述語言頻道的點擊率CTR預估模型,並使用所述CTR預估模型計算每個所述候選展示資訊的預估CTR,其中,所述CTR預估模型是根據申請專利範圍第1項至第6項中任一項所述的CTR預估模型建立方法建立的;以及按照預估CTR從大到小的順序對候選展示資訊進行排序,將設定位置之前的候選展示資訊提供給所述用戶。
TW103134248A 2014-05-14 2014-10-01 點擊率預估模型建立方法、裝置及資訊提供方法、系統 TWI677838B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??201410203666.7 2014-05-14
CN201410203666.7A CN105095625B (zh) 2014-05-14 2014-05-14 点击率预估模型建立方法、装置及信息提供方法、系统

Publications (2)

Publication Number Publication Date
TW201543394A TW201543394A (zh) 2015-11-16
TWI677838B true TWI677838B (zh) 2019-11-21

Family

ID=54480709

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103134248A TWI677838B (zh) 2014-05-14 2014-10-01 點擊率預估模型建立方法、裝置及資訊提供方法、系統

Country Status (5)

Country Link
US (1) US20150332315A1 (zh)
CN (1) CN105095625B (zh)
HK (1) HK1213340A1 (zh)
TW (1) TWI677838B (zh)
WO (1) WO2015175835A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701191B (zh) * 2016-01-08 2020-12-29 腾讯科技(深圳)有限公司 一种推送信息点击率估计方法和装置
CN106408450A (zh) * 2016-09-09 2017-02-15 国家电网公司 一种配电能力评估方法
CN108629351B (zh) * 2017-03-15 2022-05-13 腾讯科技(北京)有限公司 一种数据模型处理方法及其装置
CN108053267B (zh) * 2017-12-29 2021-12-24 北京奇艺世纪科技有限公司 一种信息请求方法及装置
CN109299976B (zh) * 2018-09-07 2021-03-23 深圳大学 点击率预测方法、电子装置及计算机可读存储介质
CN109359247B (zh) * 2018-12-07 2021-07-06 广州市百果园信息技术有限公司 内容推送方法及存储介质、计算机设备
CN111274480B (zh) * 2020-01-17 2023-04-04 深圳市雅阅科技有限公司 用于内容推荐的特征组合方法及装置
CN111582645B (zh) * 2020-04-09 2024-02-27 上海淇毓信息科技有限公司 基于因子分解机的app风险评估方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156621A1 (en) * 2005-12-30 2007-07-05 Daniel Wright Using estimated ad qualities for ad filtering, ranking and promotion
US20110184806A1 (en) * 2010-01-27 2011-07-28 Ye Chen Probabilistic recommendation of an item
US8359309B1 (en) * 2007-05-23 2013-01-22 Google Inc. Modifying search result ranking based on corpus search statistics
US20130103493A1 (en) * 2011-10-25 2013-04-25 Microsoft Corporation Search Query and Document-Related Data Translation
US20130339350A1 (en) * 2012-06-18 2013-12-19 Alibaba Group Holding Limited Ranking Search Results Based on Click Through Rates

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006078794A2 (en) * 2005-01-18 2006-07-27 Yahoo! Inc. Matching and ranking of sponsored search listings incorporating web search technology and web content
CN101226619B (zh) * 2007-01-17 2012-11-21 阿里巴巴集团控股有限公司 实现统计邮件中超链接url点击率的系统及方法
US20090327083A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Automating on-line advertisement placement optimization
US8738436B2 (en) * 2008-09-30 2014-05-27 Yahoo! Inc. Click through rate prediction system and method
US8380570B2 (en) * 2009-10-27 2013-02-19 Yahoo! Inc. Index-based technique friendly CTR prediction and advertisement selection
US8364525B2 (en) * 2010-11-30 2013-01-29 Yahoo! Inc. Using clicked slate driven click-through rate estimates in sponsored search
CN102663617A (zh) * 2012-03-20 2012-09-12 亿赞普(北京)科技有限公司 一种广告的点击率预测方法及系统
CN103577413B (zh) * 2012-07-20 2017-11-17 阿里巴巴集团控股有限公司 搜索结果排序方法及系统、搜索结果排序优化方法及系统
CN103745225A (zh) * 2013-12-27 2014-04-23 北京集奥聚合网络技术有限公司 分布式ctr预测模型训练的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156621A1 (en) * 2005-12-30 2007-07-05 Daniel Wright Using estimated ad qualities for ad filtering, ranking and promotion
US8359309B1 (en) * 2007-05-23 2013-01-22 Google Inc. Modifying search result ranking based on corpus search statistics
US20110184806A1 (en) * 2010-01-27 2011-07-28 Ye Chen Probabilistic recommendation of an item
US20130103493A1 (en) * 2011-10-25 2013-04-25 Microsoft Corporation Search Query and Document-Related Data Translation
US20130339350A1 (en) * 2012-06-18 2013-12-19 Alibaba Group Holding Limited Ranking Search Results Based on Click Through Rates
CN103514178A (zh) * 2012-06-18 2014-01-15 阿里巴巴集团控股有限公司 一种基于点击率的搜索排序方法及装置

Also Published As

Publication number Publication date
WO2015175835A1 (en) 2015-11-19
CN105095625A (zh) 2015-11-25
US20150332315A1 (en) 2015-11-19
CN105095625B (zh) 2018-12-25
HK1213340A1 (zh) 2016-06-30
TW201543394A (zh) 2015-11-16

Similar Documents

Publication Publication Date Title
TWI677838B (zh) 點擊率預估模型建立方法、裝置及資訊提供方法、系統
US9489688B2 (en) Method and system for recommending search phrases
US9317550B2 (en) Query expansion
TWI623842B (zh) Image search and method and device for acquiring image text information
JP6211605B2 (ja) クリックスルー率に基づく検索結果の順位付け
US10552422B2 (en) Extended search method and apparatus
CN107766462A (zh) 基于用户偏好、社交信誉度和地理位置的兴趣点推荐方法
CN107944035B (zh) 一种融合视觉特征和用户评分的图像推荐方法
CN103425650B (zh) 推荐搜索方法和系统
CN103377245B (zh) 一种自动问答方法及装置
CN103902597B (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
WO2016015444A1 (zh) 一种目标用户的确定方法、设备和网络服务器
CN105608121B (zh) 一种个性化推荐方法及装置
TW201248435A (en) Method and apparatus of providing suggested terms
CN107767279A (zh) 一种基于lda的加权平均的个性化好友推荐方法
CN104915418B (zh) 网站推荐方法及装置
CN106980646A (zh) 基于流行度对用户兴趣的影响机制分析及其在推荐算法中应用的方法
CN106933947A (zh) 一种搜索方法及装置、电子设备
CN107368483A (zh) 信息推荐方法、装置及服务器
Bagci et al. Random walk based context-aware activity recommendation for location based social networks
CN108171535A (zh) 一种基于多特征的个性化餐厅推荐算法
KR102119238B1 (ko) 맞춤형 페르소나 관리서버 및 그 관리 방법
CN104123321B (zh) 一种确定推荐图片的方法及装置
CN104331490B (zh) 网络数据处理方法及装置
CN106021423A (zh) 基于群组划分的元搜索引擎个性化结果推荐方法