TWI512506B

TWI512506B - Sorting method and device for search results

Info

Publication number: TWI512506B
Application number: TW099140211A
Authority: TW
Original assignee: Alibaba Group Holding Ltd
Priority date: 2010-09-28
Filing date: 2010-11-22
Publication date: 2015-12-11
Also published as: US20130191381A1; WO2012047593A2; US20130325857A1; EP2622514A4; JP5864586B2; TW201214168A; WO2012047593A3; US20150039604A1; US9372899B2; US8538975B2; CN102419755B; EP2622514A2; JP2014500534A; CN102419755A; HK1166162A1; US8862604B2

Description

搜索結果的排序方法和裝置

本申請涉及通信和電腦技術領域，特別是涉及一種搜索結果的排序方法和裝置。

當用戶向搜索引擎提交一個查詢請求後，搜索引擎會檢索到大量與用戶的查詢請求相關的資訊。同時，搜索引擎會根據每個資訊與查詢請求的相關性程度，對資訊進行排序，以便用戶可以快速地通過搜索引擎查找到最想要的資訊。

目前，搜索引擎大多利用CTR(Click-Through-Rate，點擊到達率)反映每個資訊與用戶查詢請求的相關性程度，其中，CTR為資訊被點擊的次數與資訊被曝光次數的商。當搜索引擎計算得到每個資訊的CTR後，在搜索結果列表中，按照CTR從大到小的順序對資訊進行排序。

但是，發明人在研究中發現，一個資訊與用戶查詢請求的相關性程度往往與該資訊在搜索結果列表中的位置和在搜索結果列表中的點擊順序有關。例如，在同一個搜索結果展現頁面中，即使相關性相同，不同位置的資訊的CTR也會不一樣。或者，在先被用戶點擊的資訊，會影響位於其後面的資訊的被點擊機率。

然而，現有技術中在對搜索結果進行排序的過程中一方面只考慮到了資訊被點擊的次數和資訊被曝光的次數，而沒有考慮到在整個排序過程中，資訊在搜索結果列表中的位置因素和在搜索結果列表中的被點擊順序的因素，使排序時所依據的相關性分數存在較大偏差，在多數情況下把用戶想要獲得的資訊排在了搜索結果列表的後面，最終導致對搜索結果的排序效果差。另一方面，當對搜索結果的排序效果較差的時，用戶通常需要進一步瀏覽和點擊更多的資訊才能獲得最想要的資訊，而用戶在網站上“盲目地”進行大範圍的瀏覽和點擊的過程時，勢必會增加網路系統，特別是搜索引擎伺服器的負載，降低了網路系統的利用率。從而增加了搜索過程對於搜索引擎伺服器的消耗，同時，也浪費了搜索引擎伺服器的系統資源。

為了解決上述技術問題，本申請實施例提供了一種搜索排序方法和裝置，以減少搜索過程對於搜索引擎伺服器的消耗，並節省搜索引擎伺服器的系統資源。

本申請實施例公開了如下技術方案：

一種搜索結果的排序方法，包括：從日誌系統中提取出被曝光的日誌文檔；計算該日誌文檔與查詢請求的相關性的貝葉斯後驗機率；根據該貝葉斯後驗機率計算該日誌文檔與查詢請求的相關性的期望值；將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中；當接收到用戶提交的查詢請求時，從該檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值；按照期望值從大到小的順序對查詢到的日誌文檔進行排序。

一種搜索結果的排序裝置，包括：提取模組，用於從日誌系統中提取出被曝光的日誌文檔；機率計算模組，用於計算該日誌文檔與查詢請求的相關性的貝葉斯後驗機率；期望值計算模組，用於根據該貝葉斯後驗機率計算該日誌文檔與查詢請求的相關性的期望值；索引建立模組，用於將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中；檢索模組，用於當接收到用戶提交的查詢請求時，從該檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值；排序模組，用於按照期望值從大到小的順序對查詢到的日誌文檔進行排序。

由上述實施例可以看出，本申請在整個排序過程中，考慮到了資訊在搜索結果列表中的位置因素和在搜索結果列表中的被點擊順序的因素，即，基於貝葉斯後驗機率計算日誌文檔與查詢請求的相關性的期望值，當從檢索資料結構中查詢到與用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值後，按照相關性的期望值從大到小的順序對日誌文檔進行排序，從而使排序時所依據的相關性更好。同時，也使用戶減少瀏覽的時間和點擊的次數，快速地獲得最想要的資訊，減少搜索過程對於搜索引擎伺服器的消耗，並節省搜索引擎伺服器的系統資源。

為使本申請的上述目的、特徵和優點能夠更加明顯易懂，下面結合附圖對本申請實施例進行詳細描述。

實施例一

請參閱圖1，其為本申請一種搜索結果的排序方法的一個實施例的流程圖，該方法包括以下步驟：

步驟101：從日誌系統中提取出被曝光的日誌文檔；其中，在日誌系統中以增量更新的方式保存有歷史被曝光的日誌文檔和當天被曝光的日誌文檔。從日誌系統中提取出在日誌系統保存的所有被曝光的日誌文檔。用戶通過搜索引擎進行查詢時，與查詢請求相關的搜索結果會展示給用戶，該展示給用戶的搜索結果即為被曝光的搜索結果，該被曝光的搜索結果以日誌文檔的形式保存在日誌系統中。

步驟102：計算該日誌文檔與查詢請求的相關性的貝葉斯後驗機率；其中，發明人在研究中發現，一個資訊與用戶查詢請求的相關性程度往往與該資訊在搜索結果列表中的位置和在搜索結果列表中的被點擊順序有關。例如，當用戶面對一個搜索結果展示頁面時，一般會從上至下逐一瀏覽日誌文檔在網頁中所展示的展示資訊，如果發現某一個日誌文檔的展示資訊符合自身的搜索意圖，就會點擊該展示資訊並查看詳細內容。當查看完該展示資訊的詳細內容後，可能會繼續瀏覽下面的日誌文檔的展示資訊，也有可能因為查看到了需要的內容而結束瀏覽。由此可見，用戶是否點擊某個日誌文檔主要取決於用戶是否瀏覽到該日誌文檔，以及該日誌文檔與用戶查詢請求的相關性程度。而用戶是否繼續瀏覽下面的日誌文檔主要取決於之前日誌文檔的點擊情況。

基於上述情況，建立一個數學模型。如圖2所示，其為本申請一種構建的機率圖模型結構示意圖。圖2中的每個節點代表一個隨機變數，S表示日誌文檔與用戶查詢請求的相關性，E表示用戶是否看到日誌文檔，C表示用戶是否點擊日誌文檔，下標表示日誌文檔在一個搜索結果展示頁面中的位置，M表示一個搜索結果展示頁面中的日誌文檔總數目。根據前述分析可知，用戶是否點擊某個日誌文檔與用戶是否瀏覽到該日誌文檔，以及該日誌文檔與用戶查詢請求的相關性程度有關，用戶是否瀏覽下面的日誌文檔與之前日誌文檔的點擊情況有關，因此，從圖2中可以看出，在該模型中，例如，S1和E1分別指向C1，表示用戶是否點擊一個日誌文檔C1與用戶是否瀏覽到該日誌文檔E1，以及該日誌文檔與用戶查詢請求的相關性程度S1有關，而C1指向E2，表示用戶是否繼續瀏覽下面的日誌文檔E2與之前日誌文檔C1的點擊情況有關。

根據如圖2所示的數學模型的機率推論，當先驗分佈在[0,1]上服從均勻分佈時，其中，0和1表示實數值區間的兩個端點，即，相關性變數的先驗分佈是從0到1的實數值區間上的均勻分佈，在用戶點擊日誌文檔C1、C2...和CN的情況下，日誌文檔與查詢請求的相關性的聯合後驗分佈計算公式為：

其中，上述公式中的R _j 表示日誌文檔j與用戶查詢請求的相關性隨機變數，N _j 表示日誌文檔j被點擊的總次數，表示日誌文檔j位於r+d處且沒有被點擊，位置r處的日誌文檔被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下的發生次數，T表示所有(r，d)的可能取值，β_r _, _d 為一個全局參數，N表示從日誌系統中提取的日誌文檔的總數目，z表示歸一化係數。

從上述聯合分佈的形式可以看出，聯合分佈可以分解為單個文檔分佈的乘積。因此，單個文檔j的相關性後驗分佈計算公式為：

其中，β_r,d 為一個全局參數，其估計值，N _r _, _d 為在日誌文檔j所在的同一個點擊序列中，位置r處的日誌文檔和位置r+d處的日誌文檔都被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下的發生次數；為在日誌文檔j所在的同一個點擊序列中，位置r處的日誌文檔被點擊，位置r+d處的日誌文檔沒有被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下的發生次數；r的取值範圍為小於或等於M-1的所有自然數，d的取值範圍為小於或等於M-r的所有整數，M表示日誌文檔j所在的同一點擊序列中所有日誌文檔的總數。其中，該同一個點擊序列即為針對同一個用戶查詢請求而獲得的所有查詢結果構成的序列。例如，針對用戶查詢請求“MP3”，有100個日誌文檔為該用戶查詢請求的所有查詢結果，則100個日誌文檔構成針對“MP3”的同一個點擊序列。

步驟103：根據該貝葉斯後驗機率計算該日誌文檔與查詢請求的相關性的期望值；其中，根據上述步驟得到的貝葉斯後驗機率計算日誌文檔與查詢請求的相關性的期望值，期望值的計算公式為：

需要說明的是，由於計算期望值的開銷比較大，會消耗較大的系統資源。為了避免計算期望值所帶來的資源消耗，在本步驟計算日誌文檔的相關性的期望值之前，對日誌文檔進行過濾。其中，有一些日誌文檔與用戶查詢請求的相關性不好也不壞。在實際應用中，為了節省空間和時間，需要對這種相關性不好也不壞的日誌文檔進行過濾。

通常，當日誌文檔與用戶查詢請求的相關性的期望值為0.5時，表示相關性不好也不壞，因此，可以過濾掉與用於查詢請求的相關性的期望值為0.5的日誌文檔。而本申請需要提供一種在計算期望值之前，就可以過濾掉相關性不好也不壞的日誌文檔。

優選的，在該根據貝葉斯後驗機率計算日誌文檔與查詢請求的相關性的期望值之前，還包括：根據全局參數對日誌文檔進行過濾，使全局參數小於對應的預設閾值的日誌文檔被過濾。其中，全局參數指的是和用戶查詢請求無關的一個參數，反應的是用戶對一個搜索引擎的評價的一組指標參數。在給定的情況下，全局參數與日誌文檔與查詢請求的相關性的期望值通過機率分佈函數建立起了對應關係，按照期望值的閾值過濾等價於全局參數的閾值過濾，這種關係的推導需要預先做出解析，然後在系統初始化階段根據期望值的閾值計算全局參數的閾值，在日誌處理階段就可以根據全局參數的閾值進行過濾。

例如，從提取出的被曝光的日誌文檔中篩選出被曝光一次且沒有被點擊的日誌文檔；從篩選出的日誌文檔中按照過濾條件公式過濾全局參數小於對應的預設閾值的日誌文檔，其中，β_r _, _d 為全局參數，，N _r _, _d 為在被篩選出的日誌文檔所在的同一個點擊序列中，位置r處的日誌文檔和位置r+d處的日誌文檔都被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下的發生次數；例如，為了便於描述，以一個包含5個日誌文檔的同一個點擊序列為例來說明，已知位置排列第一、第三和第五的日誌文檔被點擊，位置排列第二和第四的日誌文檔沒有被點擊。則位置排列第一和第三的日誌文檔都被點擊，而位置排列位於第二和第二之間，即位置排列位於第二的日誌文檔沒有被點擊，該情況的發生次數為1次，同時，位置排列第三和第五的日誌文檔都被點擊，而位置排列位於第三和第五之間，即位置排列位於第四的日誌文檔沒有被點擊，該情況的發生次數為1次。因此，在以上的同一個點擊序列中，N _r _, _d 為2。

為在被篩選出的日誌文檔所在的同一個點擊序列中，位置r處的日誌文檔被點擊，位置r+d處的日誌文檔沒有被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下的發生次數；r的取值範圍為小於或等於M-1的所有自然數，d的取值範圍為小於或等於M-r的所有整數，M表示被篩選出的日誌文檔所在的同一點擊序列中所有日誌文檔的總數，E _th 為與日誌文檔與查詢請求的相關性的期望值對應的預設閾值。

需要說明的是，上述E _th 為與相關性的期望值對應的預設閾值。通常，對日誌文檔與查詢請求的相關性的期望值設定一個閾值，如設定閾值為0.5，則可以過濾掉相關性的期望值為0.5的日誌文檔。當然，可以根據用戶的使用需求和應用場景任意設定與相關性的期望值對應的預設閾值，本申請實施例對此並不限定。

當對日誌文檔進行過濾後，在本步驟中，計算過濾後的日誌文檔的期望值。

另外，當計算了日誌文檔與查詢請求的相關性的期望值後，且在將日誌文檔與查詢請求的相關性的期望值作為value儲存在檢索資料結構之前，優選的，還可以再進行一次日誌文檔的過濾，以保證經過二次過濾後，檢索資料結構中保存的日誌文檔與查詢請求的相關性更高，搜索引擎可以快速地從檢索資料結構中檢索到與用戶提交的查詢請求相關的日誌文檔和其期望值。此處，由於已經計算得到了日誌文檔與查詢請求的相關性的期望值，因此，可以直接利用日誌文檔與查詢請求的相關性的期望值進行過濾，即，當日誌文檔與查詢請求的相關性的期望值等於預設數值時，過濾掉該日誌文檔。

此外，還可以根據貝葉斯後驗機率計算日誌文檔與查詢請求的相關性的方差，可以直接利用日誌文檔與查詢請求的相關性的方差進行過濾，即，當日誌文檔與查詢請求的相關性的方差等於預設數值時，過濾掉該日誌文檔。

其中，方差的計算公式為：。

還需要說明的是，可以根據用戶的使用需求和應用場景任意設定與日誌文檔與查詢請求的相關性的期望值或者方差對應的預設閾值，本申請實施例對此並不限定。

步驟104：將查詢請求和日誌文檔的標識作為key，將該日誌文檔與查詢請求的相關性的期望值作為value儲存在檢索資料結構中；例如，key=查詢請求和日誌文檔的標識所占記憶體的連續塊，其中，查詢請求的一個字元占一個記憶體位元組，日誌文檔的標識用4個位元組的記憶體表示；value=期望值乘以10000的整數部分所占記憶體。key和value在檢索資料結構中的索引可以採用常用的trie樹建立，本申請實施例對此不再做詳細說明。

優選的，為了保證檢索資料結構的準確性，在將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中之後，還包括：對該檢索資料結構進行校驗；則該從檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值為：從通過校驗的檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值。

其中，將檢索資料結構中的鍵作為輸入資料，經過搜索引擎在檢索資料結構的檢索後，如果輸出的結果是與作為輸入資料的鍵對應的值，則通過驗證。例如，在檢索資料結構中有一組鍵值對，該鍵值對中鍵對應的查詢請求為“MP3”，對應的日誌文檔標識為ID1、ID2和ID3，該鍵值對中值對應的日誌文檔與查詢請求的相關性的期望值為0.5、0.8和0.7。分別將“MP3和ID1”、“MP3和ID2”和“MP3和ID3”作為輸入資料，經過搜索引擎在檢索資料結構中檢索後，如果輸出的結果分別為0.5、0.8和0.7，則通過檢驗，否則，沒有通過檢驗。

將檢索資料結構中的所有鍵按照上述方式逐一地校驗，當所有鍵都通過校驗後，則該檢索資料結構通過校驗。

步驟105：當接收到用戶提交的查詢請求時，從該檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值；步驟106：按照期望值從大到小的順序對查詢到的日誌文檔進行排序。

由上述實施例可以看出，本申請基於貝葉斯後驗機率計算日誌文檔與查詢請求的相關性的期望值，當從檢索資料結構中查詢到與用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值後，按照期望值從大到小的順序對日誌文檔進行排序，考慮到了資訊的位置因素和點擊順序的因素，使用戶快速獲得最想要的資訊。減少搜索過程對於搜索引擎伺服器的消耗，並節省搜索引擎伺服器的系統資源。

實施例二

下面詳細說明一種搜索結果的排序方法的優選實施方式。請參閱圖3，其為本申請一種搜索結果的排序方法的另一個實施例的流程圖，該方法包括以下步驟：

步驟301：從日誌系統中提取出當天被曝光的日誌文檔和歷史被曝光的日誌文檔；其中，還可以分別保留一定時間段內當天被曝光的日誌文檔和歷史被曝光的日誌文檔，例如，保留一個滑動時間視窗內的日誌文檔，作為一種備份，一旦系統運行過程中發現異常情況，可以用來排查問題和恢復資料。

步驟302：根據日誌系統中提取出的當天被曝光的日誌文檔和歷史被曝光的日誌文檔，分別計算當天局部統計量和歷史局部統計量；其中，局部統計量包括N _j 和，N _j 表示日誌文檔j被點擊的總次數，表示日誌文檔j位於r+d處且沒有被點擊，位置r處的日誌文檔被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下的發生次數，T表示所有(r，d)的可能取值。

步驟303：將當天局部統計量和歷史局部統計量進行合併；其中，還可以分別保存一段時間內的當天局部統計量和歷史局部統計量，以支援增量更新和排查運行中可能出現的問題，以及恢復資料。

步驟304：根據日誌系統中提取的當天被曝光的日誌文檔和歷史被曝光的日誌文檔，分別計算當天全局統計量和歷史全局統計量；其中，全局統計量包括N _r,d 和，N _r,d 為在日誌文檔j所在的同一個點擊序列中，位置r處的日誌文檔和位置r+d處的日誌文檔都被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下的發生次數；為在日誌文檔j所在的同一個點擊序列中，位置r處的日誌文檔被點擊，位置r+d處的日誌文檔沒有被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下發生的次數，r的取值範圍為小於或等於M-1的所有自然數，d的取值範圍為小於或等於M-r的所有整數，M表示日誌文檔j所在的同一點擊序列中所有日誌文檔的總數。

步驟305：將當天局部統計量和歷史局部統計量進行合併；其中，還可以分別保存一段時間內的當天全局統計量和歷史全局統計量，以支援增量更新和排查運行中可能出現的問題，以及恢復資料。

步驟306：根據合併後的全局統計量，計算全局參數；其中，全局參數為

步驟307：根據全局參數對日誌文檔進行過濾，使全局參數小於對應的預設閾值的日誌文檔被過濾；步驟308：計算過濾後的日誌文檔與查詢請求的相關性的貝葉斯後驗機率；其中，計算日誌文檔與查詢請求的相關性的貝葉斯後驗機率的過程已經在實施例一中進行了詳細地說明，故此處不再贅述，相關計算過程可以參見實施例一。

步驟309：根據貝葉斯後驗機率計算過濾後的日誌文檔與查詢請求的相關性的期望值；其中，計算日誌文檔與查詢請求的相關性的期望值的過程已經在實施例一中進行了詳細地說明，故此處不再贅述，相關計算過程可以參見實施例一。

步驟310：根據日誌文檔與查詢請求的相關性的期望值對日誌文檔進行過濾，使相關性的期望值等於預設預置的日誌文檔被過濾掉；步驟311：將查詢請求和日誌文檔的標識作為key，將該日誌文檔與查詢請求的相關性的期望值作為value儲存在檢索資料結構中；其中，還可以對檢索資料結構進行校驗，得到通過校驗的檢索資料結構。

步驟312：當接收到用戶提交的查詢請求時，從該檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值；步驟313：按照期望值從大到小的順序對查詢到的日誌文檔進行排序。

本申請中的搜索結果的排序方法可以應用在搜索領域，如圖4所示，其為本申請一種搜索排序系統的結構示意圖。每天提取新的搜索日誌，每天增量更新，輸出相關性的索引資料，更新到搜索排序系統中，作為排序的一個重要因素。

另外，本申請中的搜索結果的排序方法還可以應用在排序的評價系統。例如，給定一個查詢請求，通過本申請中的排序方法得到日誌文檔序列中的每個日誌文檔與查詢請求的相關性分值，這種分值是用戶對排序的一種隱式評價，可以歸一化該相關性分值序列，形成一個機率分佈函數p(x)。同時，用待評價的排序方法對同一個日誌文檔序列中的每個日誌文檔計算相關性分值並進行歸一化，形成一個機率分佈函數g(x)。將p(x)和g(x)的距離作為對待評價的排序方法的評估，差距越小，則待評價的排序方法的評價越高。距離計算公式可以為：

另外，本申請中的搜索結果的排序方法還可以應用在排序的訓練系統。例如，通過本申請中的排序方法得到(查詢，文檔)對的相關性分值，用Y表示，然後抽取(查詢，文檔)對的特徵，用X表示，如文本特徵和圖像特徵。然後，用於機器學習方法訓練得到相關性演算法Y=f(X)。

實施例三

與上述一種搜索結果的排序方法相對應，本申請實施例還提供了一種搜索結果的排序裝置。請參閱圖5，其為本申請一種搜索結果的排序裝置的一個實施例的結構示意圖，包括：提取模組501、機率計算模組502、期望值計算模組503、索引建立模組504、檢索模組505和排序模組506。下面結合該裝置的工作原理進一步介紹其內部結構以及連接關係。

提取模組501，用於從日誌系統中提取出被曝光的日誌文檔；機率計算模組502，用於計算該日誌文檔與查詢請求的相關性的貝葉斯後驗機率；期望值計算模組503，用於根據該貝葉斯後驗機率計算該日誌文檔與查詢請求的相關性的期望值；索引建立模組504，用於將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中；檢索模組505，用於當接收到用戶提交的查詢請求時，從該檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值；排序模組506，用於按照期望值從大到小的順序對查詢到的日誌文檔進行排序。

優選的，請參閱圖6，其為本申請一種搜索結果的排序裝置的另一個實施例的結構示意圖。除了包括有提取模組501、機率計算模組502、期望值計算模組503、索引建立模組504、檢索模組505和排序模組506之外，該裝置還包括：第一過濾模組507，用於在根據該貝葉斯後驗機率計算日誌文檔與查詢請求的相關性的期望值之前，根據全局參數對日誌文檔進行過濾，使全局參數小於對應的預設閾值的日誌文檔被過濾；則期望值計算模組503，用於根據貝葉斯後驗機率計算過濾後的日誌文檔與查詢請求的相關性的期望值。

其中，第一過濾模組507進一步包括：篩選子模組5071和過濾子模組5072，篩選子模組5071，用於從提取出的被曝光的日誌文檔中篩選出被曝光一次且沒有被點擊的日誌文檔；過濾子模組5072，從篩選出的日誌文檔中，按照過濾條件公式過濾掉全局參數小於對應的預設閾值的日誌文檔，其中，β_r _, _d 為全局參數，，N _r _, _d 為在被篩選出的日誌文檔所在的同一個點擊序列中，位置r處的日誌文檔和位置r+d處的日誌文檔都被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下的發生次數；為在被篩選出的日誌文檔所在的同一個點擊序列中，位置r處的日誌文檔被點擊，位置r+d處的日誌文檔沒有被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下發生的次數；r的取值範圍為小於或等於M-1的所有自然數，d的取值範圍為小於或等於M-r的所有整數，M表示被篩選出的日誌文檔所在的同一點擊序列中所有日誌文檔的總數，E _t _h 為與相關性的期望值對應的預設閾值。

優選的，請參閱圖7，其為本申請一種搜索結果的排序裝置的另一個實施例的結構示意圖。該裝置還包括：第二過濾模組508，用於在該將查詢請求和日誌文檔的標識作為key，將該日誌文檔的期望值作為value儲存在檢索資料結構中之前，根據日誌文檔與查詢請求的相關性的期望值或者方差對日誌文檔進行過濾，使期望值或者方差等於對應的預設閾值的日誌文檔被過濾，則索引建立模組504，用於將查詢請求和日誌文檔的標識作為key，將過濾後的日誌文檔的期望值作為value儲存在檢索資料結構中。

優選的，請參閱圖8，其為本申請一種搜索結果的排序裝置的另一個實施例的結構示意圖。除了包括有提取模組501、機率計算模組502、期望值計算模組503、索引建立模組504、檢索模組505和排序模組506之外，該裝置還包括：校驗模組509，用於在該將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中之後，對該檢索資料結構進行校驗，則檢索模組505，用於從通過校驗的檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值。

需要說明的是，本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程，是可以通過電腦程式來指令相關的硬體來完成，所述的程式可儲存於一電腦可讀取儲存媒體中，該程式在執行時，可包括如上述各方法的實施例的流程。其中，該儲存媒體可為磁碟、光碟、唯讀儲存記憶體(Read-Only Memory，ROM)或隨機儲存記憶體(Random Access Memory，RAM)等。

以上對本申請所提供的一種搜索結果的排序方法和裝置進行了詳細介紹，本文中應用了具體實施例對本申請的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本申請的方法及其核心思想；同時，對於本領域的一般技術人員，依據本申請的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請的限制。

501．．．提取模組

502．．．機率計算模組

503．．．期望值計算模組

504．．．索引建立模組

505．．．檢索模組

506．．．排序模組

507．．．第一過濾模組

5071．．．篩選子模組

5072．．．過濾子模組

508．．．第二過濾模組

509．．．校驗模組

為了更清楚地說明本申請實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，對於本領域普通技術人員而言，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本申請一種搜索結果的排序方法的一個實施例的流程圖；

圖2為本申請一種構建的機率模型結構示意圖；

圖3為本申請一種搜索結構的排序方法的另一個實施例的流程圖；

圖4為本申請一種搜索排序系統的結構示意圖；

圖5為本申請一種搜索結果的排序裝置的一個實施例的結構示意圖；

圖6為本申請一種搜索結果的排序裝置的另一個實施例的結構示意圖；

圖7為本申請一種搜索結果的排序裝置的另一個實施例的結構示意圖；

圖8為本申請一種搜索結果的排序裝置的另一個實施例的結構示意圖。

Claims

一種搜索結果的排序方法，其特徵在於，包括：從日誌系統中提取出被曝光的日誌文檔；計算該日誌文檔與查詢請求的相關性的貝葉斯後驗機率；根據該貝葉斯後驗機率計算該日誌文檔與查詢請求的相關性的期望值；將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中；當接收到用戶提交的查詢請求時，從該檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值；按照期望值從大到小的順序對查詢到的日誌文檔進行排序。
根據申請專利範圍第1項所述的排序方法，其中，在該根據貝葉斯後驗機率計算日誌文檔與查詢請求的相關性的期望值之前，還包括：根據全局參數對日誌文檔進行過濾，使全局參數小於對應的預設閾值的日誌文檔被過濾；則根據該貝葉斯後驗機率計算該日誌文檔與查詢請求的相關性的期望值為：根據貝葉斯後驗機率計算過濾後的日誌文檔與查詢請求的相關性的期望值。
根據申請專利範圍第2項所述的排序方法，其中，該根據全局參數對日誌文檔進行過濾，使全局參數小於對應的預設閾值的日誌文檔被過濾包括：從提取出的被曝光的日誌文檔中篩選出被曝光一次且沒有被點擊的日誌文檔；從篩選出的日誌文檔中，按照過濾條件公式過濾全局參數小於對應的預設閾值的日誌文檔，其中，β_r,d 為全局參數，，N _r,d 為在被篩選出的日誌文檔所在的同一個點擊序列中，位置r處的日誌文檔和位置r+d處的日誌文檔都被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下發生的次數；為在被篩選出的日誌文檔所在的同一個點擊序列中，位置r處的日誌文檔被點擊，位置r+d處的日誌文檔沒有被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下發生的次數；r的取值範圍為小於或等於M-1的所有自然數，d的取值範圍為小於或等於M-r的所有整數，M表示被篩選出的日誌文檔所在的同一點擊序列中所有日誌文檔的總數，E _th 為與相關性的期望值對應的預設閾值。
根據申請專利範圍第1項所述的排序方法，其中，在該將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔的期望值作為值儲存在檢索資料結構中之前，還包括：根據日誌文檔與查詢請求的相關性的期望值或者方差對日誌文檔進行過濾，使期望值或者方差等於對應的預設閾值的日誌文檔被過濾；則該將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔的期望值作為值儲存在檢索資料結構中為：將查詢請求和日誌文檔的標識作為鍵，將過濾後的日誌文檔的期望值作為值儲存在檢索資料結構中。
根據申請專利範圍第1項所述的排序方法，其中，在該將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中之後，還包括：對該檢索資料結構進行校驗；則該從檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值為：從通過校驗的檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值。
根據申請專利範圍第1-5項中的任意一項所述的方法，其中，該計算日誌文檔與查詢請求的相關性的貝葉斯後驗機率具體為：根據用戶是否點擊日誌文檔與用戶是否瀏覽到該日誌文檔，以及該日誌文檔與用戶查詢請求的相關性程度有關，用戶是否瀏覽下面的日誌文檔與之前日誌文檔的點擊情況有關，當先驗分佈在[0,1]上服從均勻分佈時，計算用戶點擊日誌文檔後，日誌文檔與查詢請求的相關性的聯合後驗分佈。
一種搜索結果的排序裝置，其特徵在於，包括：提取模組，用於從日誌系統中提取出被曝光的日誌文檔；機率計算模組，用於計算該日誌文檔與查詢請求的相關性的貝葉斯後驗機率；期望值計算模組，用於根據該貝葉斯後驗機率計算該日誌文檔與查詢請求的相關性的期望值；索引建立模組，用於將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中；檢索模組，用於當接收到用戶提交的查詢請求時，從該檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值；排序模組，用於按照期望值從大到小的順序對查詢到的日誌文檔進行排序。
根據申請專利範圍第7項所述的排序裝置，其中，還包括第一過濾模組，用於在根據該貝葉斯後驗機率計算日誌文檔與查詢請求的相關性的期望值之前，根據全局參數對日誌文檔進行過濾，使全局參數小於對應的預設閾值的日誌文檔被過濾；則該期望值計算模組，用於根據貝葉斯後驗機率計算過濾後的日誌文檔與查詢請求的相關性的期望值。
根據申請專利範圍第8項所述的排序裝置，其中，該第一過濾模組包括：篩選子模組，用於從提取出的被曝光的日誌文檔中篩選出被曝光一次且沒有被點擊的日誌文檔；過濾子模組，從篩選出的日誌文檔中，按照過濾條件公式過濾掉全局參數小於對應的預設閾值的日誌文檔，其中，β_r,d 為全局參數，，N _r,d 為在被篩選出的日誌文檔所在的同一個點擊序列中，位置r處的日誌文檔和位置r+d處的日誌文檔都被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下發生的次數；為在被篩選出的日誌文檔所在的同一個點擊序列中，位置r處的日誌文檔被點擊，位置r+d處的日誌文檔沒有被點擊，位置r到r+d之間的日誌文檔沒有被點擊在所有情況下發生的次數；r的取值範圍為小於或等於M-1的所有自然數，d的取值範圍為小於或等於M-r的所有整數，M表示被篩選出的日誌文檔所在的同一點擊序列中所有日誌文檔的總數，E _th 為與相關性的期望值對應的預設閾值。
根據申請專利範圍第7項所述的排序裝置，其中，還包括第二過濾模組，用於在該將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔的期望值作為值儲存在檢索資料結構中之前，根據日誌文檔與查詢請求的相關性的期望值或者方差對日誌文檔進行過濾，使期望值或者方差等於對應的預設閾值的日誌文檔被過濾，則該索引建立模組，用於將查詢請求和日誌文檔的標識作為鍵，將過濾後的日誌文檔的期望值作為值儲存在檢索資料結構中。
根據申請專利範圍第7項所述的排序裝置，其中，還包括校驗模組，用於在該將查詢請求和日誌文檔的標識作為鍵，將該日誌文檔與查詢請求的相關性的期望值作為值儲存在檢索資料結構中之後，對該檢索資料結構進行核驗，則該檢索模組，用於從通過校驗的檢索資料結構中查詢與該用戶提交的查詢請求相關的所有日誌文檔與查詢請求的相關性的期望值。