TWI591556B

TWI591556B - Search engine results sorting method and system

Info

Publication number: TWI591556B
Application number: TW102122362A
Authority: TW
Inventors: Yi Wang; an-xiang Zeng
Original assignee: Alibaba Group Services Ltd
Priority date: 2013-03-28
Filing date: 2013-06-24
Publication date: 2017-07-11
Also published as: TW201437933A; US9818142B2; WO2014160648A1; CN104077306A; JP6152173B2; JP2016511906A; US20140297476A1; CN104077306B

Description

搜尋引擎的結果排序方法及系統

本發明涉及資料處理領域，尤其涉及一種排序方法及系統。

隨著電子商務網站的發展，搜尋排序效果的好壞，越來越多的影響到用戶的搜尋以及購物體驗。搜尋引擎系統中，搜尋結果的排序受很多因素影響，這些因素是排序系統在不斷的迭代過程中，透過積累用戶回饋，分析搜尋行為資料獲得的。這些因素透過一組特定的權重組合來對線上排序效果進行影響。目前，商品搜尋引擎透過多特徵的組合，在全局上設定一個排序模型，這組模型可以用於所有商品的排序。

在商品搜尋結果的排序模型中，針對商品質量、商品文本匹配度、商品類別點擊匹配度、商品價格匹配度、以及商品銷量等多個排序特徵都建立了評價機制。每組評價機制的背後都有一組演算法模型或者是專家知識來對全網商品進行評價，評價都是以商品在上述排序特徵上的特徵分值來體現，這些特徵分值組成了排序模型中的基礎特徵。

這些基礎特徵在實際應用的線上排序時，針對一個特定Query(查詢)召回的商品列表中，商品的排序所依據的商品的得分是按照商品排序特徵的特徵分值的加權求和得到的。這裏就涉及到了一個加權權重的問題，不同排序特徵的特徵分值在排序過程中，權重是不同的，例如：商品銷量及商品類別的特徵分值就有較高的權重，因為它們是用戶直接關心的內容。相對而言，在電子商務的搜尋引擎中，對於評價商品文本匹配度的特徵分值就可以設定較低的權重。

目前，線上對所有商品的排序都同時使用一組排序權重參數，這組參數透過專家的專業知識進行選取，同時選取的這組排序權重參數會在線上透過A/B Test的方法進行驗證。A/B Test是指在對搜尋引擎排序效果進行最佳化時，需要比較最佳化演算法的優劣，將系統全部查詢流量均分成若干等份，選擇其中一個等份的查詢流量作為基礎測試流量，調用既有系統演算法對搜尋結果排序，並獲得用戶回饋的行為資料，計算排序效果。對於其他等份的查詢流量調用新的最佳化後的演算法對搜尋結果排序，並獲得用戶回饋的行為資料，計算排序效果。這樣透過一段時間的對比實驗，可以得出在不同搜尋排序演算法下的排序效果的對比結果。透過所述對比結果，可以選取排序效果好的搜尋排序演算法使用的權重參數。

這種權重參數選取方法存在三個大的缺陷：

(一)隨著時間的推移，前期確定的權重參數可能不再符合目前線上的實際應用環境。目前的情況是，一旦既有的基礎特徵的權重參數確定後，後期就不會對該權重參數做調整。

(二)隨著商品覆蓋範圍的增多，一組統一的線上權重參數已經無法滿足對所有商品的排序，單一模型已經不能完全最大化所有類別商品的收益了。即，對某個行業或類別的商品適合的權重參數，對另一個行業或類別的商品可能就是不合適的。

(三)由於線上的權重參數都是透過專家的既有的專業知識確定的，這就導致了模型不能自主學習，自動更新。同時，每一組的模型參數的確定，都需要經過多次A/B Test，這其中因為經驗知識的缺乏，可能導致實驗時間過長，或者實驗效果很差；而且這個過程中，會消耗大量的開發測試資源，同時權重的調整試驗也有可能影響搜尋的整體收益。

以上三個問題都有可能導致搜尋排序結果較差，進而影響線上交易。

本發明要解決的技術問題是如何對搜尋引擎結果的排序進行最佳化。

為了解決上述問題，本發明提供了一種搜尋引擎的結果排序方法，包括：根據歷史查詢資料選取樣本對，每一樣本對中包括一個查詢詞及透過該查詢詞搜尋得到的至少兩個商品，根據樣本對中用戶透過該查詢詞搜尋得到所述商品並對所述商品發生的行為特徵設定所述商品在所述樣本對中的相對排序；計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值；根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重；對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行所述商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和，根據加權求和的結果進行商品的排序。

進一步地，所述根據歷史查詢資料選取樣本對、根據樣本對中用戶透過該查詢詞搜尋得到所述商品並對所述商品發生的行為特徵設定所述商品在所述樣本對中的相對排序的步驟包括：對於用戶歷史使用的各查詢詞分別進行以下操作：根據搜尋引擎的訪問日誌、點擊日誌、以及購買日誌，分別統計在預定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉化率；計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉化率之間的差值，將這些差值的絕對值的均值作為該查詢詞的點擊率截斷臨限值/轉化率截斷臨限值；在該查詢詞所召回的商品中，將點擊率之差的絕對值大於該查詢詞對應的點擊率截斷臨限值的兩個商品和該查詢詞作為一個樣本對；該樣本對中，設定在該查詢詞下點擊率高的商品在所述樣本對中的排序優於另一商品。

進一步地，計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值的步驟包括：對於各樣本對分別進行以下操作：透過該樣本對中的查詢詞，獲取該查詢詞下的各排序特徵；在該樣本對中商品的結構化描述資料中，提取用於計算所獲取的各排序特徵的特徵分值的屬性欄位；根據提取的屬性欄位計算所獲取的各排序特徵的特徵分值；將該樣本對中的商品替換為根據該商品的屬性欄位計算得到的一組排序特徵的特徵分值。

進一步地，根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重的步驟包括：對於待建模的樣本對按照預定比例分為訓練樣本和測試樣本；根據訓練樣本裏各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序進行機器學習模型訓練，獲得各排序特徵的權重作為模型的輸出結果；透過測試樣本對所述模型的輸出結果進行準確率檢驗；重覆根據訓練樣本進行機器學習模型訓練的步驟及準確率檢驗的步驟，直到準確率達到最佳；將準確率達到最佳時模型的輸出結果作為最終得到的各排序特徵的權重。

進一步地，根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練的步驟包括：根據查詢詞所屬類別，為該查詢詞所在的樣本對標注該類別的標識；按照樣本對的類別的標識，將樣本對分為不同類別的樣本集合；分別根據不同類別的樣本集合中各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到該類別中各排序特徵的權重。

進一步地，對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行所述商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和的步驟包括：按照用戶當前輸入的查詢詞對應的類別的標識，獲得該查詢詞下的各排序特徵，以及該查詢詞對應的類別中各排序特徵的權重；獲取當前輸入的查詢詞召回的商品列表；根據當前輸入的查詢詞下的排序特徵，以及所召回的商品列表中各商品的屬性欄位，分別計算所述商品列表中各商品在當前輸入的查詢詞下各排序特徵的特徵分值；根據所獲取的權重和計算出的各排序特徵的特徵分值，對所召回的商品列表中各商品分別進行各排序特徵的特徵分值的加權求和。

本發明還提供了一種搜尋引擎的結果排序裝置，包括：樣本選取模組，用於根據歷史查詢資料選取樣本對，每一樣本對中包括一個查詢詞及透過該查詢詞搜尋得到的至少兩個商品，根據樣本對中用戶透過該查詢詞搜尋得到所述商品並對所述商品發生的行為特徵設定所述商品在所述樣本對中的相對排序；特徵分值獲取模組，用於計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值；模型訓練模組，用於根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重；排序模組，用於對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行所述商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和，根據加權求和的結果進行商品的排序。

進一步地，所述樣本選取模組根據歷史查詢資料選取樣本對是指：所述樣本選取模組對於用戶歷史使用的各查詢詞分別進行以下操作：根據搜尋引擎的訪問日誌、點擊日誌、以及購買日誌，分別統計在預定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉化率；計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉化率之間的差值，將這些差值的絕對值的均值作為該查詢詞的點擊率截斷臨限值/轉化率截斷臨限值；在該查詢詞所召回的商品中，將點擊率之差的絕對值大於該查詢詞對應的點擊率截斷臨限值的兩個商品和該查詢詞作為一個樣本對；該樣本對中，設定在該查詢詞下點擊率高的商品在所述樣本對中的排序優於另一商品。

進一步地，所述特徵分值計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值是指：所述特徵分值獲取模組對於各樣本對分別進行以下操作：透過該樣本對中的查詢詞，獲取該查詢詞下的各排序特徵；在該樣本對中商品的結構化描述資料中，提取用於計算所獲取的各排序特徵的特徵分值的屬性欄位；根據提取的屬性欄位計算所獲取的各排序特徵的特徵分值；將該樣本對中的商品替換為根據該商品的屬性欄位計算得到的一組排序特徵的特徵分值。

進一步地，所述模型訓練模組根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重是指：所述模型訓練模組對於待建模的樣本對按照預定比例分為訓練樣本和測試樣本；根據訓練樣本裏各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序進行機器學習模型訓練，獲得各排序特徵的權重作為模型的輸出結果；透過測試樣本對所述模型的輸出結果進行準確率檢驗；重覆根據訓練樣本進行機器學習模型訓練及準確率檢驗的操作，直到準確率達到最佳；將準確率達到最佳時模型的輸出結果作為最終得到的各排序特徵的權重。

進一步地，所述樣本選取模組還用於根據查詢詞所屬類別，為該查詢詞所在的樣本對標注該類別的標識；按照樣本對的類別的標識，將樣本對分為不同類別的樣本集合；所述模型訓練模組根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重是指：所述模型訓練模組分別根據不同類別的樣本集合中各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到該類別中各排序特徵的權重。

進一步地，所述排序模組對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行所述商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和是指：所述排序模組按照用戶當前輸入的查詢詞對應的類別的標識，獲得該查詢詞下的各排序特徵，以及該查詢詞對應的類別中各排序特徵的權重；獲取當前輸入的查詢詞召回的商品列表；根據當前輸入的查詢詞下的排序特徵，以及所召回的商品列表中各商品的屬性欄位，分別計算所述商品列表中各商品在當前輸入的查詢詞下各排序特徵的特徵分值；根據所獲取的權重和計算出的各排序特徵的特徵分值，對所召回的商品列表中各商品分別進行各排序特徵的特徵分值的加權求和。

本發明的至少一個實施例中，能夠自動進行機器學習模型的訓練，及時更新權重參數，從而最佳化搜尋排序結果，提升用戶搜尋及購物體驗。本發明的又一個實施例中，分類別進行模型訓練，從而得到不同行業所採用的權重參數。本發明的又一個實施例中，在離線進行模型效果的預測，可減少A/B Test時間，有效提升排序效果。當然，實施本發明的任一產品必不一定需要同時達到以上所述的所有優點。

圖1是實施例一的一種排序方法的流程示意圖；圖2是實施例一中對於各查詢詞選取樣本對的流程示意圖；圖3是實施例一中對於各樣本對進行特徵分值替換的流程示意圖；圖4是實施例一的一個例子的流程示意圖。

下面將結合圖式及實施例對本發明的技術方案進行更詳細的說明。

需要說明的是，如果不衝突，本發明實施例以及實施例中的各個特徵可以相互結合，均在本發明的保護範圍之內。另外，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同於此處的順序執行所示出或描述的步驟。

實施例一，一種搜尋引擎的結果排序方法，如圖1所示，包括：S101、根據歷史查詢資料選取樣本對，每一樣本對中包括一個查詢詞及透過該查詢詞搜尋得到的至少兩個商品，根據樣本對中用戶透過該查詢詞搜尋得到所述商品並對所述商品發生的行為特徵設定所述商品在樣本對中的相對排序；S102、計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值；S103、根據各樣本對中商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，獲得各排序特徵的權重；S104、對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行所述商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和，根據加權求和的結果進行商品的排序。

本實施例中，在收到查詢請求時，根據機器學習得到的各排序特徵的權重計算每一商品的排序分值，從而對該查詢召回的商品列表中(即該查詢請求搜尋得到的商品列表)的商品排序。

在本實施例的一種備選方案中，用戶對所述商品發生的行為特徵包括用戶對所述商品在搜尋到該商品的查詢詞下的點擊率和/或轉化率。

如圖2所示，在一個具體的實施中所述步驟S101可以包括，對於用戶歷史使用的各查詢詞分別進行以下操作：步驟11、根據搜尋引擎的訪問日誌、點擊日誌、以及購買日誌，分別統計在預定時間長度(比如但不限於7天)中該查詢詞所召回的各商品在該查詢詞下的CTR(Click Through Rate，點擊率)；其中，商品在查詢詞下的點擊率或轉化率表示用戶透過該查詢詞搜尋到該商品並對所述商品進行點擊或購買的次數與該商品透過該查詢詞而展現的次數的比率。

步驟12、計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率之間的差值，將這些差值的絕對值的均值作為該查詢詞對應的點擊率截斷臨限值CTR_THRELD；比如查詢詞召回的商品有商品A、商品B和商品C，在該查詢詞下，商品A的點擊率為CTR A，商品B的點擊率為CTR B，商品C的點擊率為CTR C，則先分別計算CTR A和CTR B的差值、CTR A和CTR C的差值、CTR C和CTR B的差值，然後再將這些差值的絕對值的均值作為CTR_THRELD；步驟13、在該查詢詞所召回的商品中，將點擊率之差的絕對值大於該查詢詞對應的點擊率截斷臨限值的兩個商品和該查詢詞作為一個樣本對；該樣本對中，設定在該查詢詞下點擊率高的商品在所述樣本對中的排序優於另一商品；即：對於該查詢詞所召回的各商品，如果該查詢詞到第一商品的點擊率減去該查詢詞到第二商品的點擊率所得到的差值，大於該查詢詞的點擊率截斷臨限值，則將該查詢詞、第一商品、第二商品作為一個樣本對。在該樣本對中，如果第一商品的點擊率高於第二商品的點擊率，則在該查詢詞對應的查詢條件下，可以認為第一商品相較於第二商品更貼近用戶的搜尋意圖，與該查詢詞的相關性更高。因此，對於在該樣本對中的相關性排序，可以設定第一商品優於第二商品。即所述商品在樣本對的相對排序中，點擊率高的商品優於另一商品。當然，可以理解的，在歷史的查詢中，第一商品在搜尋結果中的排序並不一定優先於第二商品。

對於一個查詢詞，可能會得到一個或多個樣本對；最後，還可以將所得到的各查詢詞對應的樣本對一起保存為樣本集合。

上述步驟11中，也可以是統計在預定時間長度中該查詢詞所召回的各商品在該查詢詞下的轉化率；相應的，步驟12中是計算該查詢詞所召回的每兩個商品在該查詢詞下的轉化率之間的差值，將這些差值的絕對值的均值作為該查詢詞對應的轉化率截斷臨限值；步驟13中則是將轉化率之差的絕對值大於該查詢詞對應的轉化率截斷臨限值的兩個商品作為一個樣本對；可以設定該樣本對中在該查詢詞下的轉化率高的商品和該查詢詞的相關性高於另一商品。即在樣本對中的相對排序中，設定轉化率高的商品優於另一商品。

其中，在某一查詢詞下商品的CTR是指用戶在搜尋引擎中按照該查詢詞搜尋到該商品並在該商品上發生點擊的次數與按照該查詢詞進行搜尋的次數的比值。在某一查詢詞下商品的轉化率是指用戶在搜尋引擎中按照該查詢詞搜尋到該商品並購買該商品的次數與按照該查詢詞進行搜尋的次數的比值。

這樣獲取的樣本集合中的各樣本可以表示為(query,baobei_A,baobei_B)，其中query為查詢詞，第一商品baobei_A和第二商品baobei_B都是查詢詞的召回結果(即搜尋結果)，且根據用戶在第一商品和第二商品的行為統計，確定了第一商品和第二商品在樣本對中的相對排序。

在傳統的排序模型中，訓練樣本都是透過人工標注出來的，這樣做的弊端是，需要消耗大量的人力成本。本備選方案採用Pair-wise(樣本對)的方法，提取的樣本只需要標注一個查詢下，商品A和商品B中哪一個商品的優先度高，並不需要查詢到每個商品的排序分值。透過搜尋引擎中的用戶行為，提取這類樣本對作為樣本集合。

在對用戶當前輸入的查詢詞獲得的商品搜尋結果進行排序時，需要根據商品在各排序特徵上的特徵分值進行加權求和後的綜合排序分值得到商品的排序，每一排序特徵對用戶的搜尋意圖的影響程度可能不一樣，因此，每一排序特徵對應的權重參數也可能不同。

本備選方案中，為了提升查詢詞下搜尋結果的點擊率或轉化率，對各排序特徵的權重參數進行最佳化。透過機器學習的方式建立排序特徵、權重參數與排序結果的關係模型，對排序中各排序特徵的權重參數進行預估。在訓練模型的過程中，要根據提升目標來提取所需要的樣本集合。如果，現在的主要目標是提高查詢詞下搜尋結果的點擊率CTR，因此以用戶的點擊行為作為提取樣本的標準。如果主要目標是提高轉化率，則以購買行為作為提取樣本的標準。在其他備選方案中，對於不同的目標可以選擇不同的樣本選取策略。

在本備選方案的一種實施方式中，還可以進一步根據查詢詞所屬類別，為該查詢詞所在的樣本對標注該類別的標識。查詢詞所屬類別可事先指定。

在本實施例的一種備選方案中，所述步驟S102具體可以包括：如圖3所示，對於各樣本對分別進行以下操作：步驟21、透過該樣本對中的查詢詞，獲取該查詢詞下的各排序特徵；步驟22、在該樣本對中商品的結構化描述資料中，提取用於計算所獲取的各排序特徵的特徵分值的屬性欄位；其中，屬性欄位即結構化描述資料中一個資料項目，不同特徵分值的計算可能需要特定的幾個資料項目，可以事先指定特徵分值和資料項目之間的對應關係；從結構化描述資料中獲得資料項目時既可以是從資料庫中查詢得到，也可以是從分散式存儲服務中提取得到；步驟23、根據提取的屬性欄位計算所獲取的各排序特徵的特徵分值；步驟24、將該樣本對中的商品替換為根據該商品的屬性欄位計算得到的一組排序特徵的特徵分值，這樣就可以還原出該查詢詞下每個商品的各排序特徵的特徵分值。

此時，樣本對表示為：(query,feature1_A,feature2_A,...,featureN_A,feature1_B,feature2_B,...,featureN_B)

其中，feature1_A,feature2_A,...,featureN_A是查詢詞query對應的第一商品A在各排序特徵上的特徵分值列表，feature1_B,feature2_B,...,featureN_B是查詢詞query對應的第二商品A在各排序特徵上的特徵分值列表；N為特徵分值的個數。

如果樣本對已標注有類別標識，則步驟21中還可以進一步獲取查詢詞的分詞資訊，查詢詞對應的類別分佈資訊，以及查詢詞對應的其他資訊。

在本實施例的一種備選方案中，所述步驟S103具體可以包括：對於待建模的樣本對按照預定比例(比如但不限於為2：1)分為訓練樣本和測試樣本；根據訓練樣本裏各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序進行機器學習模型訓練，獲得各排序特徵的權重作為模型的輸出結果，這組權重表徵每個排序特徵在排序時的有效性；透過測試樣本對所述模型的輸出結果進行準確率檢驗；重覆根據訓練樣本進行機器學習模型訓練及準確率檢驗的步驟，直到準確率達到最佳；將準確率達到最佳時模型的輸出結果作為最終得到的各排序特徵的權重。

在該備選方案的一種實施方式中，所述根據訓練樣本進行建模的步驟中可以但不限於使用RankSVM作為模型訓練演算法。

RankSVM是一種pair-wise的排序分類演算法，它可以對一組查詢詞下屬性欄位的排序樣本進行學習，獲得到排序模型。因為RankSVM是基於SVM進行開發的，它支援各種不同的核函數進行分類，包括高斯核、多項式核、線性核等。其中，高斯核和多項式核可以將低維問題轉化為高維問題，從而提高模型的準確率，但是這兩種核的模型訓練速度較慢，同時在線上預測是複雜度也較高。而線性核雖然泛化能力較弱，但是它訓練速度較快，而且目前系統的線性排序方式比較容易結合。因此，比較優選的方案是使用線性核。

在別的實施方式中，模型訓練也可以採用List-wise，獲得多目標集成最佳化的方法，來提高模型預測的準確性。

對原始的樣本對需轉換為RankSVM所需的特定樣本格式，而基於上述兩步驟得到的樣本對中兩個商品的各排序特徵的特徵分值列表如下，其中“1”和“0”是用於表示兩個商品在樣本對中的相對排序的標識，具有標識“1”的商品為排序在前的商品，具有標識“0”的商品為排序在後的商品：(1,feature1_A,feature2_A,...,featureN_A)

(0,feature1_B,feature2_B,...,featureN_B)

可根據該樣本對採用RankSVM演算法得到排序模型。

在本實施例的一種備選方案中，步驟S103具體可以包括：根據查詢詞所屬類別，為該查詢詞所在的樣本對標注該類別的標識；按照樣本對的類別的標識，將樣本對分為不同類別的樣本集合；分別根據不同類別的樣本集合中各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到該類別中各排序特徵的權重。

透過離線訓練獲得的各排序特徵的權重需要在線上使用；由於針對不同類別下的查詢詞對應的樣本集合會為各類別分別訓練出一個模型，不同類別下的排序特徵會有不同的權重，使線上排序根據不同類別的查詢詞有不同的效果。

在該備選方案的一種實施方式中，對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行所述商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和的步驟具體可以包括：按照用戶當前輸入的查詢詞對應的類別的標識Predict_cat，獲得該查詢詞下的各排序特徵，以及該查詢詞對應的類別的排序模型model_cat，即該類別中各排序特徵的權重：(weight_1,weight_2,...,weight_N)；獲取當前輸入的查詢詞召回的商品列表；根據當前輸入的查詢詞下的排序特徵，以及所召回的商品列表中各商品的屬性欄位，分別計算所述商品列表中各商品在當前輸入的查詢詞下各排序特徵的特徵分值；每個商品的計算結果可以表示為如下的特徵分值向量：(feature1,feature2,...,featureN)；根據所獲取的權重和計算出的各排序特徵的特徵分值，對所召回的商品列表中各商品分別進行各排序特徵的特徵分值的加權求和，即按照下式分別計算各商品的得分score：全部計算完成後就可以基於每個商品的得分，對商品列表中的各商品進行排序了。

一個具體例子如圖4所示，當用戶請求在功能變數名稱為xxx的網頁中使用查詢詞“手機”進行商品查詢時，查詢伺服器(QP伺服器)將該查詢請求發給搜尋引擎；搜尋引擎按照查詢詞的類別選擇排序模型，比如圖4中的服務行業排序模型、手機行業排序模型或其他行業排序模型；然後根據排序模型對查詢詞召回的商品進行排序，並透過查詢伺服器返回給用戶。

實施例二，一種搜尋引擎的結果排序裝置，包括：樣本選取模組，用於根據歷史查詢資料選取樣本對，每一樣本對中包括一個查詢詞及透過該查詢詞搜尋得到的至少兩個商品，根據樣本對中用戶透過該查詢詞搜尋得到所述商品並對所述商品發生的行為特徵設定所述商品在所述樣本對中的相對排序；特徵分值獲取模組，用於計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值；模型訓練模組，用於根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重；排序模組，用於對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行所述商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和，根據加權求和的結果進行商品的排序。

本實施例的一種備選方案中，所述樣本選取模組根據歷史查詢資料選取樣本對具體可以是指：所述樣本選取模組對於用戶歷史使用的各查詢詞分別進行以下操作：根據搜尋引擎的訪問日誌、點擊日誌、以及購買日誌，分別統計在預定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉化率；計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉化率之間的差值，將這些差值的絕對值的均值作為該查詢詞的點擊率截斷臨限值/轉化率截斷臨限值；在該查詢詞所召回的商品中，將點擊率之差的絕對值大於該查詢詞對應的點擊率截斷臨限值的兩個商品和該查詢詞作為一個樣本對；該樣本對中，設定在該查詢詞下點擊率高的商品在所述樣本對中的排序優於另一商品。

本實施例的一種備選方案中，所述特徵分值計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值是指：所述特徵分值獲取模組對於各樣本對分別進行以下操作：透過該樣本對中的查詢詞，獲取該查詢詞下的各排序特徵；在該樣本對中商品的結構化描述資料中，提取用於計算所獲取的各排序特徵的特徵分值的屬性欄位；根據提取的屬性欄位計算所獲取的各排序特徵的特徵分值；將該樣本對中的商品替換為根據該商品的屬性欄位計算得到的一組排序特徵的特徵分值。

本實施例的一種備選方案中，所述模型訓練模組根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重是指：所述模型訓練模組對於待建模的樣本對按照預定比例分為訓練樣本和測試樣本；根據訓練樣本裏各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序進行機器學習模型訓練，獲得各排序特徵的權重作為模型的輸出結果；透過測試樣本對所述模型的輸出結果進行準確率檢驗；重覆根據訓練樣本進行機器學習模型訓練及準確率檢驗的操作，直到準確率達到最佳；將準確率達到最佳時模型的輸出結果作為最終得到的各排序特徵的權重。

該備選方案的一些實施方式中，可以透過RankSVM對訓練樣本進行建模，使用線性核進行訓練。

本實施例的一種備選方案中，所述樣本選取模組還用於根據查詢詞所屬類別，為該查詢詞所在的樣本對標注該類別的標識；按照樣本對的類別的標識，將樣本對分為不同類別的樣本集合；該備選方案中，所述模型訓練模組根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重是指：所述模型訓練模組分別根據不同類別的樣本集合中各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中所述商品的相對排序，進行機器學習模型的訓練，得到該類別中各排序特徵的權重。

該備選方案中，所述排序模組對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行所述商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和是指：所述排序模組按照用戶當前輸入的查詢詞對應的類別的標識，獲得該查詢詞下的各排序特徵，以及該查詢詞對應的類別中各排序特徵的權重；獲取當前輸入的查詢詞召回的商品列表；根據當前輸入的查詢詞下的排序特徵，以及所召回的商品列表中各商品的屬性欄位，分別計算所述商品列表中各商品在當前輸入的查詢詞下各排序特徵的特徵分值；根據所獲取的權重和計算出的各排序特徵的特徵分值，對所召回的商品列表中各商品分別進行各排序特徵的特徵分值的加權求和。

本領域普通技術人員可以理解上述方法中的全部或部分步驟可透過程式來指令相關硬體完成，所述程式可以存儲於電腦可讀存儲介質中，如唯讀儲存器、磁片或光碟等。可選地，上述實施例的全部或部分步驟也可以使用一個或多個積體電路來實現。相應地，上述實施例中的各模組/單元可以採用硬體的形式實現，也可以採用軟體功能模組的形式實現。本發明不限制於任何特定形式的硬體和軟體的結合。

當然，本發明還可有其他多種實施例，在不背離本發明精神及其實質的情況下，熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變形，但這些相應的改變和變形都應屬於本發明的申請專利範圍的保護範圍。

Claims

一種搜尋引擎的結果排序方法，其特徵在於，包括：根據歷史查詢資料選取樣本對，每一樣本對中包括一個查詢詞及透過該查詢詞搜尋得到的至少兩個商品，根據樣本對中用戶透過該查詢詞搜尋得到該商品並對該商品發生的行為特徵設定該商品在該樣本對中的相對排序，其包括：包括：對於用戶歷史使用的各查詢詞分別進行以下操作：根據搜尋引擎的訪問日誌、點擊日誌、以及購買日誌，分別統計在預定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉化率；計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉化率之間的差值，將這些差值的絕對值的均值作為該查詢詞的點擊率截斷臨限值/轉化率截斷臨限值；在該查詢詞所召回的商品中，將點擊率之差的絕對值大於該查詢詞對應的點擊率截斷臨限值的兩個商品和該查詢詞作為一個樣本對；該樣本對中，設定在該查詢詞下點擊率高的商品在該樣本對中的排序優於另一商品；計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值；根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重；對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行該商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和，根據加權求和的結果進行商品的排序。
如申請專利範圍第1項所述的方法，其中，計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值的步驟包括：對於各樣本對分別進行以下操作：透過該樣本對中的查詢詞，獲取該查詢詞下的各排序特徵；在該樣本對中商品的結構化描述資料中，提取用於計算所獲取的各排序特徵的特徵分值的屬性欄位；根據提取的屬性欄位計算所獲取的各排序特徵的特徵分值；將該樣本對中的商品替換為根據該商品的屬性欄位計算得到的一組排序特徵的特徵分值。
如申請專利範圍第1項所述的方法，其中，根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重的步驟包括：對於待建模的樣本對按照預定比例分為訓練樣本和測試樣本；根據訓練樣本裏各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序進行機器學習模型訓練，獲得各排序特徵的權重作為模型的輸出結果；透過測試樣本對該模型的輸出結果進行準確率檢驗；重覆根據訓練樣本進行機器學習模型訓練的步驟及準確率檢驗的步驟，直到準確率達到最佳；將準確率達到最佳時模型的輸出結果作為最終得到的各排序特徵的權重。
如申請專利範圍第1到3項中任一項所述的方法，其中，根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序，進行機器學習模型的訓練的步驟包括：根據查詢詞所屬類別，為該查詢詞所在的樣本對標注該類別的標識；按照樣本對的類別的標識，將樣本對分為不同類別的樣本集合；分別根據不同類別的樣本集合中各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序，進行機器學習模型的訓練，得到該類別中各排序特徵的權重。
如申請專利範圍第4項所述的方法，其中，對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行該商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和的步驟包括：按照用戶當前輸入的查詢詞對應的類別的標識，獲得該查詢詞下的各排序特徵，以及該查詢詞對應的類別中各排序特徵的權重；獲取當前輸入的查詢詞召回的商品列表；根據當前輸入的查詢詞下的排序特徵，以及所召回的商品列表中各商品的屬性欄位，分別計算該商品列表中各商品在當前輸入的查詢詞下各排序特徵的特徵分值；根據所獲取的權重和計算出的各排序特徵的特徵分值，對所召回的商品列表中各商品分別進行各排序特徵的特徵分值的加權求和。
一種搜尋引擎的結果排序裝置，其特徵在於，包括：樣本選取模組，用於根據歷史查詢資料選取樣本對，每一樣本對中包括一個查詢詞及透過該查詢詞搜尋得到的至少兩個商品，根據樣本對中用戶透過該查詢詞搜尋得到該商品並對該商品發生的行為特徵設定該商品在該樣本對中的相對排序；特徵分值獲取模組，用於計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值；模型訓練模組，用於根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重；排序模組，用於對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行該商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和，根據加權求和的結果進行商品的排序，其中，該樣本選取模組根據歷史查詢資料選取樣本對是指：該樣本選取模組對於用戶歷史使用的各查詢詞分別進行以下操作：根據搜尋引擎的訪問日誌、點擊日誌、以及購買日誌，分別統計在預定時間長度中該查詢詞所召回的各商品在該查詢詞下的點擊率或轉化率；計算該查詢詞所召回的每兩個商品在該查詢詞下的點擊率/轉化率之間的差值，將這些差值的絕對值的均值作為該查詢詞的點擊率截斷臨限值/轉化率截斷臨限值；在該查詢詞所召回的商品中，將點擊率之差的絕對值大於該查詢詞對應的點擊率截斷臨限值的兩個商品和該查詢詞作為一個樣本對；該樣本對中，設定在該查詢詞下點擊率高的商品在該樣本對中的排序優於另一商品。
如申請專利範圍第6項所述的裝置，其中，該特徵分值計算樣本對中每一商品在該查詢詞下的各排序特徵的特徵分值是指：該特徵分值獲取模組對於各樣本對分別進行以下操作：透過該樣本對中的查詢詞，獲取該查詢詞下的各排序特徵；在該樣本對中商品的結構化描述資料中，提取用於計算所獲取的各排序特徵的特徵分值的屬性欄位；根據提取的屬性欄位計算所獲取的各排序特徵的特徵分值；將該樣本對中的商品替換為根據該商品的屬性欄位計算得到的一組排序特徵的特徵分值。
如申請專利範圍第6項所述的裝置，其中，該模型訓練模組根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重是指：該模型訓練模組對於待建模的樣本對按照預定比例分為訓練樣本和測試樣本；根據訓練樣本裏各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序進行機器學習模型訓練，獲得各排序特徵的權重作為模型的輸出結果；透過測試樣本對該模型的輸出結果進行準確率檢驗；重覆根據訓練樣本進行機器學習模型訓練及準確率檢驗的操作，直到準確率達到最佳；將準確率達到最佳時模型的輸出結果作為最終得到的各排序特徵的權重。
如申請專利範圍第6到8項中任一項所述的裝置，其中：該樣本選取模組還用於根據查詢詞所屬類別，為該查詢詞所在的樣本對標注該類別的標識；按照樣本對的類別的標識，將樣本對分為不同類別的樣本集合；該模型訓練模組根據各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序，進行機器學習模型的訓練，得到各排序特徵的權重是指：該模型訓練模組分別根據不同類別的樣本集合中各樣本對中的商品在各排序特徵上的特徵分值及各樣本對中該商品的相對排序，進行機器學習模型的訓練，得到該類別中各排序特徵的權重。
如申請專利範圍第9項所述的裝置，其中，該排序模組對用戶當前輸入的查詢詞召回的商品列表中的各商品，按照所得到的權重進行該商品列表中每一商品在當前輸入的查詢詞下各排序特徵的特徵分值的加權求和是指：該排序模組按照用戶當前輸入的查詢詞對應的類別的標識，獲得該查詢詞下的各排序特徵，以及該查詢詞對應的類別中各排序特徵的權重；獲取當前輸入的查詢詞召回的商品列表；根據當前輸入的查詢詞下的排序特徵，以及所召回的商品列表中各商品的屬性欄位，分別計算該商品列表中各商品在當前輸入的查詢詞下各排序特徵的特徵分值；根據所獲取的權重和計算出的各排序特徵的特徵分值，對所召回的商品列表中各商品分別進行各排序特徵的特徵分值的加權求和。