TW201405340A

TW201405340A - 搜尋結果排序方法及系統、搜尋結果排序最佳化方法及系統

Info

Publication number: TW201405340A
Application number: TW101142219A
Authority: TW
Inventors: Feng Lin; jia-yu Tang
Original assignee: Alibaba Group Services Ltd
Priority date: 2012-07-20
Filing date: 2012-11-13
Publication date: 2014-02-01
Also published as: TWI554895B; WO2014015174A2; JP6267199B2; KR20150036113A; WO2014015174A3; US20140025668A1; CN103577413B; US9372893B2; CN103577413A; JP2015522889A; KR102109995B1

Abstract

本申請案提供了一種搜尋結果排序方法，包括獲取原始特徵集合；基於歷史交易資料從原始特徵集合提取有效特徵，有效特徵指能夠對搜尋結果的排序產生影響的特徵；基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和預定訓練模型對初始權重進行訓練得到最終權重；基於最終權重對搜尋結果進行排序。本申請案還提供了一種實現前述方法的搜尋結果排序系統，以及對前述方法進行最佳化的搜尋結果排序最佳化方法及系統。本申請案的搜尋結果排序方法及系統、搜尋結果排序最佳化方法及系統，能夠保證排序結果的客觀性和準確性，避免用戶因為排序結果不準確而額外的向伺服器發送新搜尋請求，從而可以減少伺服器的負擔以及減少資料的傳輸量。

Description

搜尋結果排序方法及系統、搜尋結果排序最佳化方法及系統

本申請關於電腦資料處理技術領域，特別是關於一種搜尋結果排序方法及系統、搜尋結果排序最佳化方法及系統。

隨著電子商務的發展，越來越多的用戶選擇在電子商務網站進行商品的購買。一般情況下一個電子商務網站，通常擁有千萬甚至幾億的產品，用戶要在繁多的產品中找到自己需要的，利用關鍵字進行搜尋是常見的一種方法。所謂搜尋，即用戶輸入關鍵字，網站返回與關鍵字相關的搜尋結果供用戶篩選。

在很多情況下，一個關鍵字可能會有較大數量的搜尋結果，那麽搜尋結果在展示必然需要按照一定的順序排列，如何對這些搜尋結果進行排序需要網站進行綜合考慮。例如，可以根據搜尋結果與關鍵字的相關性、搜尋結果在之前的點擊率、成交情況等等。對於電子商務網站來說，其主要目的是提高商品的銷售量，因此，其在對搜尋結果進行排序時除了考慮相關性，還需要考慮搜尋結果的可成交性，例如成交轉化率、好評率等等。

目前，常見的電子商務網站對搜尋結果進行排序時，相關性和可成交性預測主要通過人工對歷史資料進行分析並根據經驗來確定搜尋結果(即具體商品)的特徵和權重，並根據一定公式計算得到。其中，商品特徵是指能夠影響商品可成交性的因素，例如銷售量、好評率、成交轉化率等等。因為在確定特徵和權重時憑經驗設定，較為盲目和主觀，往往會與實際情況出現誤差。因此，其返回的排序後的搜尋結果可能與用戶期望會出現較大的差異，用戶期望的搜尋結果可能被排在靠後的位置，因為搜尋結果數量通常較大，為了減少資料傳輸量，伺服器通常會分段返回排序後的搜尋結果，先返回部分結果，若用戶提交請求，則再返回部分結果。當排序後的搜尋結果與用戶期望出現較大差異時，那麽用戶則可能不斷的請求查看剩餘搜尋結果或者重新通過用戶端向伺服器提交新的搜尋請求來獲取其所期望的搜尋結果。那麽就會增加伺服器的資料傳輸量，那麽這無疑會增加伺服器的負載，佔用大量的網路資源，甚至可能造成網路堵塞。同時也說明伺服器返回的排序後的搜尋結果中有大量的無關資料，這部分資料的傳輸無疑是對伺服器資源和網路資源的浪費和不必要的佔用。

本申請案提供一種搜尋結果排序方法及系統、搜尋結果排序最佳化方法及系統，能夠解決搜尋結果與用戶預期不同，用戶通過用戶端反復的發送搜尋請求而導致的伺服器負擔增加以及網路堵塞的問題。

為了解決上述問題，本申請案揭示了一種搜尋結果排序方法，包括以下步驟：獲取原始特徵集合，該原始特徵包括預先設定的可能對搜尋結果的排序產生影響的特徵；基於歷史交易資料從原始特徵集合提取有效特徵，該有效特徵指根據歷史交易資料確定的能夠對搜尋結果的排序產生影響的特徵；基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和預定訓練模型對初始權重進行訓練得到最終權重；基於該有效特徵的最終權重對搜尋結果進行排序。

進一步地，該基於歷史交易資料從原始特徵集合提取有效特徵包括：基於歷史交易資料選取兩組測試產品，其中一組為有成交記錄的產品，另外一組為沒有成交記錄的產品；從歷史交易資料中分別提取該兩組測試產品在一定時間段內的相關資料，並利用該相關資料計算兩組測試產品各原始特徵的特徵值；比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。

進一步地，該基於歷史交易資料從原始特徵集合提取有效特徵包括：從歷史交易資料中提取預定時間段內的交易資料，計算該預定時間段內各產品的成交轉化率；選取成交轉化率差值大於閾值的兩組產品作為測試產品；從歷史交易資料中提取該兩組測試產品在該預定時間段之後的一定時間段內的交易資料，並計算兩組測試產品的原始特徵集合中各原始特徵的特徵值；比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。

進一步地，該基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和訓練模型對初始權重進行訓練得到最終權重包括：確定有效特徵的初始權重；將歷史交易資料和初始權重代入預定訓練模型中，計算理論資料；比較理論資料與實際資料，若二者差異在預定範圍內，則確定該初始權重為有效特徵的最終權重，反之，則返回確定有效特徵的初始權重這一個步驟。

進一步地，該基於該有效特徵的最終權重對搜尋結果進行排序包括：確定搜尋結果的實際有效特徵值；基於有效特徵的最終權重和實際有效特徵值計算搜尋結果的預測成交轉化率；按照預測成交轉化率對搜尋結果進行排序。

本申請案還揭示了一種搜尋結果排序最佳化方法，包括以下步驟：分別獲取搜尋結果的有效特徵的各組備選權重值；分別採用各備選權重值計算某一預定時間點的搜尋結果的理論排序分數，並根據理論排序分數對搜尋結果進行排序得到各組排序結果；分別獲取各組排序結果排在前面預定數量的搜尋結果，並獲取該搜尋結果在該預定時間點以後的交易資料；根據該交易資料計算各組排序結果中排在前面預定數量的搜尋結果的實際排序分數；選取實際排序分數最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值。

進一步地，該理論排序分數為單一特徵預測值或者特徵組合的預測值，該實際排序分數為與該理論排序分數對應的單一特徵實際值或者特徵組合的實際值。

進一步地，該理論排序分數為預測成交轉化率，該實際排序分數為實際成交轉化率；或者該理論排序分數為預測好評率，該實際排序分數為實際好評率。

進一步地，該選取實際排序分數最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值包括：選取實際排序分數總和或平均值最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值。

本申請案還揭示了一種搜尋結果排序最佳化方法，包括以下步驟：獲取某一預定時間點根據搜尋結果的理論排序分數進行排序的排序結果，該理論排序分數根據有效特徵的最終權重和各搜尋結果的實際有效特徵值得到；獲取該排序結果中排列在前面預定數量的搜尋結果在該預定時間點後的交易資料，並根據該交易資料計算該搜尋結果的實際排序分數；比較該實際排序分數和理論排序分數，若兩者差值大於閾值，則最佳化該有效特徵的最終權重。

本申請案還揭示了一種搜尋結果排序系統，包括：原始特徵集合獲取模組，用於獲取原始特徵集合，該原始特徵包括預先設定的可能對搜尋結果的排序產生影響的特徵；有效特徵提取模組，用於基於歷史交易資料從原始特徵集合提取有效特徵，該有效特徵指根據歷史交易資料確定的能夠對搜尋結果的排序產生影響的特徵；有效特徵權重確定模組，用於基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和預定訓練模型對初始權重進行訓練得到最終權重；排序模組，用於基於該有效特徵的最終權重對搜尋結果進行排序。

進一步地，該有效特徵提取模組包括：測試產品選取子模組，用於基於歷史交易資料選取兩組測試產品，其中一組為有成交記錄的產品，另外一組為沒有成交記錄的產品；特徵值計算子模組，用於從歷史交易資料中分別提取該兩組測試產品在一定時間段內的相關資料，並利用該相關資料計算兩組測試產品各原始特徵的特徵值；比較子模組，用於比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。

本申請案還揭示了一種搜尋結果排序最佳化系統，包括：備選權重值獲取模組，用於分別獲取搜尋結果的有效特徵的各組備選權重值；理論排序分數計算模組，用於分別採用各備選權重值計算某一預定時間點的搜尋結果的理論排序分數，並根據理論排序分數對搜尋結果進行排序得到各組排序結果；交易資料獲取模組，用於分別獲取各組排序結果排在前面預定數量的搜尋結果，並獲取該搜尋結果在該預定時間點以後的交易資料；實際排序分數計算模組，用於根據該交易資料計算各組排序結果中排在前面預定數量的搜尋結果的實際排序分數；最終權重確定模組，用於選取實際排序分數最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值。

本申請案還揭示了一種搜尋結果排序最佳化系統，包括：理論排序分數計算模組，用於獲取某一預定時間點根據搜尋結果的理論排序分數進行排序的排序結果，該理論排序分數根據有效特徵的最終權重和各搜尋結果的實際有效特徵值得到；實際排序分數計算模組，用於獲取該排序結果中排列在前面預定數量的搜尋結果在該預定時間點後的交易資料，並根據該交易資料計算該搜尋結果的實際排序分數；最佳化模組，用於比較該實際排序分數和理論排序分數，若兩者差值大於閾值，則最佳化該有效特徵的最終權重。

與現有技術相比，本申請案包括以下優點：本申請案的搜尋結果排序方法及系統通過歷史交易資料來選取影響排序結果的有效特徵，並結合歷史交易資料來確定有效特徵的最終權重，最終利用這些權重對搜尋結果進行排序。在這個過程中，除了會依照歷史交易資料確定出各有效特徵和初始權重，還會利用歷史交易資料對初始權重進行訓練，從而得到一個最佳化後的最終權重，保證了最終權重的客觀性和準確度，從而提高了排序結果的客觀性和準確性，避免了用戶因為排序不準確，無法得到預期的搜尋結果而不斷的請求獲取剩餘資料或者通過用戶端重新向伺服器發送新的搜尋請求，從而減少了伺服器的負擔和對網路資源的佔用，同時減少了資料的傳輸量。

另外，在選取有效特徵的過程中，首先依照歷史交易資料選取出成交率高和低的兩組對比度較高的測試產品來作為測試依據。並依照歷史交易資料對兩組測試產品的特徵值分別進行計算後，比較兩組產品在相同原始特徵的特徵值上的差異的方式來確定特徵對於產品成交率的影響，從而準確的選取出有效特徵，提高了排序的準確性。

本申請案的搜尋結果排序最佳化方法及系統中，通過利用某一時間點以及該時間點以後的交易資料來確定最佳的權重值或者對已經確定的權重值進行最佳化方式，也即借助於真實的歷史交易資料來確定相對最佳化的搜尋結果的排序方式或者對現有的搜尋結果的排序方式進行最佳化，可以使排序結果更為客觀準確，同樣也可以避免用戶因為排序不準確，無法得到預期的搜尋結果而不斷的請求獲取剩餘資料或者通過用戶端重新向伺服器發送新的搜尋請求，從而減少了伺服器的負擔和對網路資源的佔用，同時減少了資料的傳輸量。

當然，實施本申請案的任一產品不一定需要同時達到以上所述的所有優點。

為使本申請案的上述目的、特徵和優點能夠更加明顯易懂，下面結合附圖和具體實施方式對本申請案作進一步詳細的說明。

參照圖1，示出本申請案的一種搜尋結果排序方法實施例一，包括以下步驟：步驟101，獲取原始特徵集合，該原始特徵包括預先設定的可能對搜尋結果的排序產生影響的特徵。

原始特徵集合可以根據歷史交易資料或者經驗確定。一般情況下，原始特徵集合所包含的特徵有交易量、成交轉化率、好評率、發貨速度、圖片文字質量、交易金額等等。

其中，搜尋結果的原始特徵集合可以預先設定好，當需要時可以直接從伺服器或者其他資料庫中獲取，也可以通過即時從伺服器或資料庫中獲取歷史交易資料，並通過即時分析的方法提取。

步驟102，基於歷史交易資料從原始特徵集合提取有效特徵，該有效特徵指根據歷史交易資料確定的能夠對搜尋結果的排序產生影響的特徵。

歷史交易資料可以直接從伺服器中讀取，基於歷史交易資料從原始特徵集合提取有效特徵具體包括以下步驟：基於歷史交易資料選取兩組測試產品，其中一組為有成交記錄的產品，另外一組為沒有成交記錄的產品。

從歷史交易資料中分別提取該兩組測試產品在一定時間段內的相關資料，並利用該相關資料計算兩組測試產品各原始特徵的特徵值；比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。

相關資料用於計算原始特徵集合中各特徵的具體數值。特徵不同，其所需要的相關資料也並不相同，具體的相關資料可以根據具體需要來確定。例如，對於交易量這一特徵來說，其所需要的資料為預定時間段內成交的筆數，那麽相關資料即為成交筆數。又如，對於好評率來說，其所需要的原始資料為預定時間段內的評價總數和好評數，那麽相關資料即為評價總數和好評數。

其中，原始特徵集合中各原始特徵的特徵值的計算公式可以根據實際情況來確定，較佳考慮如何有效的表示出該特徵。例如，對於交易量這一特徵來說，若直接用交易量的數值來表示其特徵值，那麽其理論數值可以是0到任意一個自然數。但是在具體取值時，單單比較數值的差異往往無法說明問題。例如，對於交易量分別為0和1這兩種情況，此時二者交易量的特徵值相差1，但是對應的卻是是否有交易這兩種差異較大的情況。而，對於交易量分別為100和101這兩種情況，這個差別只能說明交易數量相差1。為此，可以針對該特徵重新設定計算公式，即不單純以交易量數值作為特徵值，而是將交易量作為參數，計算出一個最終的特徵值。例如，假設交易量為n，可以採用1-1/(1+n)，對應的，0筆交易的特徵值為0，1筆的特徵值為0.5，而100筆為0.9901，而101筆為0.9902。此種方式，可以更有效的表示出交易量的變化差異。同理，對於其他特徵也可以採用類似的處理方式，只要能夠有效的表示出特徵即可，本申請案對比並不限制。

可以理解，前述步驟中選取兩組測試產品時的標準為是否有成交記錄，為了增加兩組測試產品的對比性以及增加選取產品的範圍，提高結果的準確性，較佳地，選取的兩組測試產品中，一組為成交記錄高於第一閾值的產品，另外一組為沒有成交記錄或者低於第二閾值的產品。其中，第一閾值和第二閾值可以根據實際情況來設定，可以將第一閾值設置得盡可能高，第二閾值設置得盡可能低，從而保證兩組測試產品具有更大的差異性，從而便於後續準確的提取有效特徵。

可以理解，測試產品的選取除了依照成交記錄這一歷史交易資料，還可以依照某些特徵來進行。較佳地，因為本申請案的主要目的是對電子商務網站中的搜尋結果進行排序，並盡可能將符合用戶期望的搜尋結果排在前面，從而增加產品被購買的幾率，避免用戶反復的通過用戶端向伺服器發送搜尋請求來獲取其所期望的搜尋結果。也即，本申請案在排序時除了相關性之外，會優先考慮產品的成交轉化率，即某個產品在搜尋結果中出現後被購買的概率，這一特徵為對排序結果有較大權重的特徵。一般來說，若一個產品在搜尋結果中出現後，被購買的概率越大，那麽對於有相同搜尋請求的用戶來說，其購買該產品的概率也會增加。因此，在選取測試產品時，還可以依照成交轉化率來進行，具體採用如下方式：從歷史交易資料中提取預定時間段內的交易資料，計算該預定時間段內各產品的成交轉化率；選取成交轉化率差值大於閾值的兩組產品作為測試產品；從歷史交易資料中提取該兩組測試產品在該預定時間段之後的一定時間段內的交易資料，並計算兩組測試產品的原始特徵集合中各原始特徵的特徵值；比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。

預定時間段的長度可以根據實際需要設定，為了節省計算時間、減少計算量，可以設置較短的長度；為了提供結果的準確性或者系統計算能力足夠強大，則可以設置較長的長度，例如，可以是一天、三天、十天、三十天或者其他長度，本申請案對此並不限制。預定時間段內之後的一定時間段的長度也可以根據實際需要來設定。較佳地，為了保證計算結果的匹配性，可以設定為與預定時間段具有相同的長度。

此過程中，首先根據預定時間段內的成交轉化率，將成交轉化率差值較大的兩組產品選取為測試產品。在具體實現時，可以設定第一轉化值和第二轉化值，二者的差值為閾值，若一組產品的成交轉化率高於第一轉化值，一組產品的成交轉化率低於第二轉化值，那麽就可以選取該兩組產品作為測試產品。然後利用預定時間段內之後的一定時間段內，該兩組測試產品的交易資料來計算兩組測試產品的原始特徵集合中各原始特徵的特徵值。若兩組測試產品的同一原始特徵的特徵值差值較大，例如超過設定的閾值，那麽就可以將該原始特徵作為有效特徵。因為選取的是成交轉化率差異明顯的兩組測試產品，若某個原始特徵特徵值的差值越大，則說明該原始特徵對於產品是否成交的影響越大。通過此種方式對原始特徵進行篩選，提取出相關的有效特徵，從而使排序結果更為準確。

採用前述幾種方法進行有效特徵選取時主要依賴於成交對比度較高的兩組測試產品(例如，一組為有成交記錄的產品，另一組為沒有成交記錄的產品；或者一組為成交轉化率高的產品，另一組為成交轉化率低的產品)，如果某一特徵對於產品的成交有較大影響，那麽通過交易資料所計算的特徵值的差異也會較大。如果某一特徵對於產品的成交影響很小或者幾乎沒有影響，那麽成交對比度較高的兩組產品的該特徵值的差異也會很小或者幾乎沒有。因此，通過此種方法可以更好的篩選出有效特徵，從而提高後續搜尋結果排序的準確性。

可以理解，對於測試產品的選取還可以參照其他特徵，例如，若排序結果更偏重於好評度，則可以選取好評度差異較大的兩組產品作為測試產品，然後採用前述相類似的方式，計算兩組測試產品的原始特徵的特徵值，選取特徵值差異較大的原始特徵作為有效特徵。同樣，排序結果更偏重於交易量，則可以選取交易量差異較大的兩組產品作為測試產品。具體選取可以採用前述方法類似的過程進行，在此不再贅述。

步驟103，基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和預定訓練模型對初始權重進行訓練得到最終權重。

各有效特徵的初始權重和最終權重都可以通過模型訓練的方式來確定，可以理解，初始權重也可以根據經驗設定。以多維線性模型為例，首先可以通過多維線性擬合的方式，確定各有效特徵的初始權重，然後將這些初始權重代入計算公式中與歷史交易資料結合計算出理論資料，將理論資料與實際資料比較，差異越小，則說明初始權重確定得越準確。若差異在預定範圍內，則選用該初始權重作為有效特徵的最終權重，反之，則重新確定初始權重並採用前述方法計算直到差異縮小到預定範圍內。

以產品的成交情況為例，首選，根據初始權重和歷史交易資料計算出產品的理論成交情況，最後，將計算出的理論成交情況與實際成交情況比較，差異越小，則說明初始權重確定得越準確，則可以將初始權重作為有效特徵的最終權重，反之，則需要重新確定權重，直到確定的權重值使理論成交情況與實際成交情況的差異達到最小值或者在預定範圍內。具體訓練時，成交情況可以用成交轉化率或者是否成交來表示。可以理解，因為模型訓練可以通過較多的機器學習的方法來進行，本申請案對此並不詳述。

步驟104，基於該有效特徵的最終權重對搜尋結果進行排序。

較佳地，基於有效特徵的最終權重對搜尋結果進行排序包括：確定搜尋結果的實際有效特徵值；基於有效特徵的最終權重和實際有效特徵值計算搜尋結果的預測成交轉化率；按照預測成交轉化率對搜尋結果進行排序。

可以理解，此處的排序參考的主要因素為搜尋結果的預測成交轉化率。在實際應用中，還可以根據其他因素來排序，例如，搜尋結果的好評率等等，排序參考的主要因素可以根據不同的排序目的來確定，當排序目的不同時，其參考的主要因素也可以不同，排序結果也可以相應的變化。但是，排序時無論參考的主要因素如何變化，都可以參照前述方法來計算各搜尋結果的排序分數，並進行排序。

下面結合具體實例對前述方法進行詳細的說明。假設，提取的原始特徵集合中包含的特徵為交易量、成交轉化率、好評率、發貨速度以及圖片文字質量五個。

提取有效特徵的過程為：根據如下表1，假設預定時間段為30天，可以確定需要獲取的歷史交易資料包括成交筆數、曝光數、好評數、總評價數、發貨天數、圖片數以及文字數。在獲取了這些歷史交易資料之後，便可以依照計算方法進行計算，確定各原始特徵的特徵值。

假設，利用前述歷史交易資料計算出的這兩組測試產品五個特徵的特徵值為初始特徵值。根據計算出的初始特徵值可以選取出對比度較高的兩組測試產品，假設一組為成交轉化率超過70%的產品，另一組為成交轉化率低於1%的產品。可以理解，因為這裏是為了選取測試產品，若偏重成交轉化率，那麽可以僅計算成交轉化率，其他特徵的特徵值則可以不用計算。

接下來，需要獲取該兩組測試產品在前述30天之後的若干時間段內的歷史交易資料，例如，可以是一周內，也可以仍然是30天內的歷史交易資料，並依照這些歷史交易資料計算兩組測試產品五個特徵的特徵值，假設為驗證特徵值。

然後，分別比較兩組測試產品相同特徵的驗證特徵值的差值，若二者差值超過閾值，則確定該特徵為有效特徵。假設閾值為0.3，經過前述比較，該兩組測試產品的交易量、成交轉化率、好評率、發貨速度以及圖片文字質量五個特徵的差值分別為0.6、0.9、0.8、0.5和0.02。那麽可以看出，最終選取的有效特徵為交易量、成交轉化率、好評率以及發貨速度。

最後，基於歷史交易資料通過模型訓練的方式來確定這四個有效特徵的最終權重，並獲取搜尋結果中這四個有效特徵的實際值，最後基於確定的有效特徵的最終權重和實際值來計算各搜尋結果的排序分數，然後依照排序分數對搜尋結果進行排序。

本申請案的搜尋結果排序方法及系統通過歷史交易資料來選取影響排序結果的有效特徵，並結合歷史交易資料來確定有效特徵的最終權重，最終利用這些權重對搜尋結果進行排序。在這個過程中，除了會依照歷史交易資料確定出各有效特徵和初始權重，還會利用歷史交易資料對初始權重進行訓練，從而得到一個最佳化後的最終權重，保證了最終權重的客觀性和準確度，從而提高了排序結果的客觀性和準確性，避免了用戶因為排序不準確，無法得到預期的搜尋結果而不斷的請求獲取剩餘資料或者通過用戶端重新向伺服器發送新的搜尋請求，從而減少了伺服器的負擔和對網路資源的佔用，同時減少了資料的傳輸量。

參照圖2，示出本申請案的搜尋結果排序最佳化方法實施例一，包括以下步驟：步驟201，分別獲取搜尋結果的有效特徵的各組備選權重值。

有效特徵的備選權重值至少為兩組，也可以為三組或者四組。

步驟202，分別採用各備選權重值計算某一預定時間點的搜尋結果的理論排序分數，並根據理論排序分數對搜尋結果進行排序得到各組排序結果。

其中，理論排序分數可以是搜尋結果的預測成交轉化率、預測好評率或者其他特徵、或者特徵組合的具體分數，主要根據實際排序目的來確定，本申請案對此並不限制。

較佳地，在本申請案的實施例中，以預測成交轉化率為例進行說明。即，分別採用各備選權重值計算某一預定時間點的搜尋結果的預測成交轉化率，並依照預測成交轉化率對搜尋結果進行排序得到各組排序結果。

當某一預定時間點的搜尋結果確定後，可以首先獲取搜尋結果的有效特徵，並根據實際資料來計算這些搜尋結果的有效特徵值。然後根據有效特徵值，分別與各組備選權重值相結合，計算出搜尋結果不同的預測成交轉化率，並根據不同的預測成交轉化率得到不同的排序結果。

例如，假設某一預定時間點的搜尋結果共有四個，包括a、b、c、d，假設有兩組備選權重值，則可能出現，根據其中一組權重值計算出的排序結果為a、b、c、d；根據另外一組權重值計算出的排序結果為d、c、a、b。

步驟203，分別獲取各組排序結果排在前面預定數量的搜尋結果，並獲取該搜尋結果在該預定時間點以後的交易資料。

其中，排在前面預定數量的具體數值可以根據實際搜尋結果的數量以及系統的計算能力來確定。例如，實際搜尋結果的數量很大，系統的計算能力一般，則可以將預定數量值設置為一個較小的值，例如2%、4%等等。如果系統的計算能力允許，也可以將預定數量值設置為一個較大的值，例如，10%等等。當然，資料越多，所能提供的結果也越客觀準確，因此還可以設置多個預定數量，例如2%、4%、6%、8%、10%等等。

預定時間點以後的交易資料可以根據實際情況來設定其具體的範圍，例如，可以是預定時間點以後一周內的交易資料，也可以是十天、二十天或者其他時間段的交易資料，只要能夠保證是從預定時間點之後能夠獲取到的交易資料即可。

步驟204，根據該交易資料計算各組排序結果中排在前面預定數量的搜尋結果的實際排序分數。

實際排序分數是指根據實際資料採用計算理論排序分數相同的方法計算出的搜尋結果的實際排序分數。例如，以理論排序分數為預測成交轉化率為例，此時的實際排序分數則指實際成交轉化率。

步驟205，選取實際排序分數最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值。

因為在進行排序時，計算的是各搜尋結果的理論排序分數，其理論排序分數越高，其排序才會越靠前。當其實際排序分數越高，才說明排序結果與實際情況越相符，此時的排序才更為準確。可以理解，實際排序分數最高，可以是某一排序結果中選取的搜尋結果的實際排序分數都高於其他排序結果中相同位置的搜尋結果的實際排序分數。但是，這是一個相對理想的排序結果，在實際進行時可能無法得到如此最佳化的排序結果，因此，為了簡化計算流程，實際排序分數最高可以是實際排序分數的總和或者平均值最高。

以前述的兩種排序結果a、b、c、d和d、c、a、b為例。假設排序的依據為成交轉化率，根據預測成交轉化率的大小進行排序後，選取每組排序結果中排在前面兩位的搜尋結果，分別為a、b和d、c。根據交易資料計算出這四個搜尋結果(a、b、d、c)的實際成交轉化率分別為5%、4%、3%和2%。那麽可以看出，a、b的實際成交轉化率平均值為4.5%，高於d、c的實際成交轉化率平均值2.5%。因此，排序結果為a、b、c、d這一組所對應的備選權重值應該作為有效特徵的最終權重值。

下面，以成交轉化率為例，結合具體實例對前述搜尋結果排序最佳化方法實施例進行詳細的說明。

假設，在某個時間點T，根據某一關鍵字進行搜尋可以得到一組搜尋結果。根據前述方法，這組搜尋結果的有效特徵是固定的，其有效特徵值也是固定的。假設，有效特徵的最終權重共有兩組，根據這兩組權重值來計算搜尋結果的預測成交轉化率，然後根據預測成交轉化率的高低對搜尋結果進行排序。假設共有五十個搜尋結果，因為權重值的區別，可以得出兩組排序結果，假設分別為N和O，如圖3所示，對於排序結果N和O，可以統計前x%的搜尋結果在T以後一段時間內的實際成交轉化率平均值，例如一周內。如果排序結果N的前x%的實際成交轉化率平均值高於排序結果O的前x%的實際成交轉化率平均值，則表示，排序結果N在時間點T對於搜尋結果的成交轉化率的預測與實際結果更為接近。也即，如果倒回到時間點T，用排序結果N所採用的權重值對搜尋結果進行排序，能夠將在時間點T之後成交轉化率更高的搜尋結果排在前面，從而提高這些搜尋結果的展示機會，促成更多交易。

較佳地，為了得到更全面客觀的比較，可以取不同的x值來計算兩組排序結果的差異。例如，可以計算前2%商品的實際成交轉化率平均值，然後計算前4%、6%、8%、......，如表2所示，依次類推，便可以在多個不同點對兩種排序結果進行比較。可以看到，排序結果N的預測效果要明顯優於排序結果O。可以理解，這個資料還可以進一步繪製實際成交轉化率平均值的曲線，更加直觀地看到兩者的效果差異。

較佳地，為了確保排序結果N所採用的有效特徵的最終權重比排序結果O所採用的有效特徵的最終權重在效果的提升是有統計意義的，而非出自偶然，還可以進一步做顯著性驗證。顯著性驗證有很多現成的方法，例如，以T檢驗為例。T檢驗是比較兩組樣本均值的常用方法。T檢驗中的P值表示兩個樣本的均值存在差異的假設不成立的概率。一般認為，P<=0.01則兩種樣本的差異非常顯著。假設表1中共有50個實際成交轉化率平均值，那麽對於表1中兩種排序結果的50個實際成交轉化率平均值進行T檢驗，得到的P值約為8.7E-07，遠小於0.01，因此從統計意義而言，排序結果N所採用的有效特徵的最終權重相對於排序結果O所採用的有效特徵的最終權重的最佳化非常顯著。

可以理解，前述方法以成交轉化率為例進行了說明，在實際應用中，還可以根據其他特徵，例如好評率、發貨速度等等來進行排序以及最佳化。較佳地，還可以根據綜合特徵來進行排序以及最佳化。具體可以設定不同的排序計算公式，但是排序的主要思想與本申請案前述過程類似，在此不再贅述。

進一步地，前述的最佳化方法是在還未確定出有效特徵的最終權重，需要從多組可能的結果中選取最優的一組有效特徵的最終權重時的搜尋結果排序最佳化方法。可以理解，當需要在已經確定出有效特徵的最終權重的基礎上進行的最佳化時，可以採用如下方法。

參照圖4，示出本申請案的搜尋結果排序最佳化方法實施例二，包括以下步驟：步驟401，獲取某一預定時間點根據搜尋結果的理論排序分數進行排序的排序結果，該理論排序分數根據有效特徵的最終權重和各搜尋結果的實際有效特徵值得到；步驟402，獲取該排序結果中排列在前面預定數量的搜尋結果在該預定時間點後的交易資料，並根據該交易資料計算該搜尋結果的實際排序分數；步驟403，比較該實際排序分數和理論排序分數，若兩者差值大於閾值，則最佳化該有效特徵的最終權重。

其中，最佳化有效特徵的最終權重可以採用前述的排序方法中所提及的模型訓練的方式，即獲取歷史交易資料，並結合訓練模型來確定最佳化各有效特徵的最終權重，在此不再詳述。閾值的設定也可以根據實際排序分數和理論排序分數所對應的實際特徵來設定，例如，若實際排序分數和理論排序分數分別為實際成交轉化率和預測成交轉化率時，其閾值則可以根據一般情況下，成交轉化率所允許的差值範圍來確定，例如為0.2或者其他值。另外，對於此方法實施例中所提及的具體細節，可以參照搜尋結果排序最佳化方法實施例一，在此也不再詳述。

本申請案的搜尋結果排序最佳化方法中，通過利用某一時間點以及該時間點以後的交易資料來確定最優的權重值或者對已經確定的權重值進行最佳化方式，也即借助於真實的歷史交易資料來確定相對最佳化的搜尋結果的排序方式或者對現有的搜尋結果的排序方式進行最佳化，可以使排序結果更為客觀準確。

參照圖5，示出本申請案的搜尋結果排序系統實施例，包括原始特徵集合獲取模組10、有效特徵提取模組20、有效特徵權重確定模組30和排序模組40。

原始特徵集合獲取模組10，用於獲取原始特徵集合，該原始特徵包括預先設定的可能對搜尋結果的排序產生影響的特徵。

有效特徵提取模組20，用於基於歷史交易資料從原始特徵集合提取有效特徵，該有效特徵指根據歷史交易資料確定的能夠對搜尋結果的排序產生影響的特徵。較佳地，有效特徵提取模組包括測試產品選取子模組、特徵值計算子模組和比較子模組。其中，測試產品選取子模組，用於基於歷史交易資料選取兩組測試產品，其中一組為有成交記錄的產品，另外一組為沒有成交記錄的產品。特徵值計算子模組，用於從歷史交易資料中分別提取該兩組測試產品在一定時間段內的相關資料，並利用該相關資料計算兩組測試產品各原始特徵的特徵值。比較子模組，用於比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。

有效特徵權重確定模組30，用於基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和預定訓練模型對初始權重進行訓練得到最終權重。

排序模組40，用於基於該有效特徵的最終權重對搜尋結果進行排序。

參照圖6，示出本申請案的搜尋結果排序最佳化系統實施例一，包括備選權重值獲取模組61、理論排序分數計算模組63、交易資料獲取模組65、實際排序分數計算模組67和最終權重確定模組69。

備選權重值獲取模組61，用於分別獲取搜尋結果的有效特徵的各組備選權重值。

理論排序分數計算模組63，用於分別採用各備選權重值計算某一預定時間點的搜尋結果的理論排序分數，並根據理論排序分數對搜尋結果進行排序得到各組排序結果。

交易資料獲取模組65，用於分別獲取各組排序結果排在前面預定數量的搜尋結果，並獲取該搜尋結果在該預定時間點以後的交易資料。

實際排序分數計算模組67，用於根據該交易資料計算各組排序結果中排在前面預定數量的搜尋結果的實際排序分數。

最終權重確定模組69，用於選取實際排序分數最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值。

參照圖7，示出本申請案的搜尋結果排序最佳化系統實施例二，包括理論排序分數計算模組71、實際排序分數計算模組73和最佳化模組75。

理論排序分數計算模組71，用於獲取某一預定時間點根據搜尋結果的理論排序分數進行排序的排序結果，該理論排序分數根據有效特徵的最終權重和各搜尋結果的實際有效特徵值得到。

實際排序分數計算模組73，用於獲取該排序結果中排列在前面預定數量的搜尋結果在該預定時間點後的交易資料，並根據該交易資料計算該搜尋結果的實際排序分數。

最佳化模組75，用於比較該實際排序分數和理論排序分數，若兩者差值大於閾值，則最佳化該有效特徵的最終權重。

本說明書中的各個實施例均採用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。對於系統實施例而言，由於其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

以上對本申請案所提供的搜尋結果排序方法及系統、搜尋結果排序最佳化方法及系統進行了詳細介紹，本文中應用了具體個例對本申請案的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本申請案的方法及其核心思想；同時，對於本領域的一般技術人員，依據本申請案的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本申請案的限制。

10‧‧‧原始特徵集合獲取模組

20‧‧‧有效特徵提取模組

30‧‧‧有效特徵權重確定模組

40‧‧‧排序模組

61‧‧‧備選權重值獲取模組

63‧‧‧理論排序分數計算模組

65‧‧‧交易資料獲取模組

67‧‧‧實際排序分數計算模組

69‧‧‧最終權重確定模組

71‧‧‧理論排序分數計算模組

73‧‧‧實際排序分數計算模組

75‧‧‧最佳化模組

圖1是本申請案的搜尋結果排序方法實施例一的流程圖；圖2是本申請案的搜尋結果排序最佳化方法實施例一的流程圖；圖3是本申請案的搜尋結果排序最佳化實例的兩組排序結果示意圖；圖4是本申請案的搜尋結果排序最佳化方法實施例二的流程圖；圖5是本申請案的搜尋結果排序系統實施例一的結構示意圖；圖6是本申請案的搜尋結果排序最佳化系統實施例一的結構示意圖；圖7是本申請案的搜尋結果排序最佳化系統實施例二的結構示意圖。

Claims

一種搜尋結果排序方法，其特徵在於，該方法包括以下步驟：獲取原始特徵集合，該原始特徵包括預先設定的可能對搜尋結果的排序產生影響的特徵；基於歷史交易資料從原始特徵集合提取有效特徵，該有效特徵指根據歷史交易資料確定的能夠對搜尋結果的排序產生影響的特徵；基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和預定訓練模型對初始權重進行訓練得到最終權重；以及基於該有效特徵的最終權重對搜尋結果進行排序。
如申請專利範圍第1項所述的搜尋結果排序方法，其中，該基於歷史交易資料從原始特徵集合提取有效特徵包括：基於歷史交易資料選取兩組測試產品，其中一組為有成交記錄的產品，另外一組為沒有成交記錄的產品；從歷史交易資料中分別提取該兩組測試產品在一定時間段內的相關資料，並利用該相關資料計算兩組測試產品各原始特徵的特徵值；以及比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。
如申請專利範圍第1項所述的搜尋結果排序方法，其中，該基於歷史交易資料從原始特徵集合提取有效特徵包括：從歷史交易資料中提取預定時間段內的交易資料，計算該預定時間段內各產品的成交轉化率；選取成交轉化率差值大於閾值的兩組產品作為測試產品；從歷史交易資料中提取該兩組測試產品在該預定時間段之後的一定時間段內的交易資料，並計算兩組測試產品的原始特徵集合中各原始特徵的特徵值；以及比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。
如申請專利範圍第1項所述的搜尋結果排序方法，其中，該基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和訓練模型對初始權重進行訓練得到最終權重包括：確定有效特徵的初始權重；將歷史交易資料和初始權重代入預定訓練模型中，計算理論資料；以及比較理論資料與實際資料，若二者差異在預定範圍內，則確定該初始權重為有效特徵的最終權重，反之，則返回確定有效特徵的初始權重這一個步驟。
如申請專利範圍第1項所述的搜尋結果排序方法，其中，該基於該有效特徵的最終權重對搜尋結果進行排序包括：確定搜尋結果的實際有效特徵值；基於有效特徵的最終權重和實際有效特徵值計算搜尋結果的預測成交轉化率；以及按照預測成交轉化率對搜尋結果進行排序。
一種搜尋結果排序最佳化方法，其特徵在於，該方法包括以下步驟：分別獲取搜尋結果的有效特徵的各組備選權重值；分別採用各備選權重值計算某一預定時間點的搜尋結果的理論排序分數，並根據理論排序分數對搜尋結果進行排序得到各組排序結果；分別獲取各組排序結果排在前面預定數量的搜尋結果，並獲取該搜尋結果在該預定時間點以後的交易資料；根據該交易資料計算各組排序結果中排在前面預定數量的搜尋結果的實際排序分數；以及選取實際排序分數最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值。
如申請專利範圍第6項所述的搜尋結果排序最佳化方法，其中，該理論排序分數為單一特徵預測值或者特徵組合的預測值，該實際排序分數為與該理論排序分數對應的單一特徵實際值或者特徵組合的實際值。
如申請專利範圍第7項所述的搜尋結果排序最佳化方法，其中，該理論排序分數為預測成交轉化率，該實際排序分數為實際成交轉化率；或者該理論排序分數為預測好評率，該實際排序分數為實際好評率。
如申請專利範圍第6至8項任一項所述的搜尋結果排序最佳化方法，其中，該選取實際排序分數最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值包括：選取實際排序分數總和或平均值最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值。
一種搜尋結果排序最佳化方法，其特徵在於，該方法包括以下步驟：獲取某一預定時間點根據搜尋結果的理論排序分數進行排序的排序結果，該理論排序分數根據有效特徵的最終權重和各搜尋結果的實際有效特徵值得到；獲取該排序結果中排列在前面預定數量的搜尋結果在該預定時間點後的交易資料，並根據該交易資料計算該搜尋結果的實際排序分數；以及比較該實際排序分數和理論排序分數，若兩者差值大於閾值，則最佳化該有效特徵的最終權重。
如申請專利範圍第10項所述的搜尋結果排序最佳化方法，其中，該理論排序分數為預測成交轉化率，該實際排序分數為實際成交轉化率；或者該理論排序分數為預測好評率，該實際排序分數為實際好評率。
一種搜尋結果排序系統，其特徵在於，該系統包括：原始特徵集合獲取模組，用於獲取原始特徵集合，該原始特徵包括預先設定的可能對搜尋結果的排序產生影響的特徵；有效特徵提取模組，用於基於歷史交易資料從原始特徵集合提取有效特徵，該有效特徵指根據歷史交易資料確定的能夠對搜尋結果的排序產生影響的特徵；有效特徵權重確定模組，用於基於歷史交易資料確定各有效特徵的初始權重，並利用歷史交易資料和預定訓練模型對初始權重進行訓練得到最終權重；以及排序模組，用於基於該有效特徵的最終權重對搜尋結果進行排序。
如申請專利範圍第12項所述的搜尋結果排序系統，其中，該有效特徵提取模組包括：測試產品選取子模組，用於基於歷史交易資料選取兩組測試產品，其中一組為有成交記錄的產品，另外一組為沒有成交記錄的產品；特徵值計算子模組，用於從歷史交易資料中分別提取該兩組測試產品在一定時間段內的相關資料，並利用該相關資料計算兩組測試產品各原始特徵的特徵值；以及比較子模組，用於比較該兩組測試產品相同原始特徵的特徵值的差值，若超過閾值，則選取該原始特徵為有效特徵。
一種搜尋結果排序最佳化系統，其特徵在於，該系統包括：備選權重值獲取模組，用於分別獲取搜尋結果的有效特徵的各組備選權重值；理論排序分數計算模組，用於分別採用各備選權重值計算某一預定時間點的搜尋結果的理論排序分數，並根據理論排序分數對搜尋結果進行排序得到各組排序結果；交易資料獲取模組，用於分別獲取各組排序結果排在前面預定數量的搜尋結果，並獲取該搜尋結果在該預定時間點以後的交易資料；實際排序分數計算模組，用於根據該交易資料計算各組排序結果中排在前面預定數量的搜尋結果的實際排序分數；以及最終權重確定模組，用於選取實際排序分數最高的一組排序結果所對應的備選權重值作為有效特徵的最終權重值。
一種搜尋結果排序最佳化系統，其特徵在於，該系統包括：理論排序分數計算模組，用於獲取某一預定時間點根據搜尋結果的理論排序分數進行排序的排序結果，該理論排序分數根據有效特徵的最終權重和各搜尋結果的實際有效特徵值得到；實際排序分數計算模組，用於獲取該排序結果中排列在前面預定數量的搜尋結果在該預定時間點後的交易資料，並根據該交易資料計算該搜尋結果的實際排序分數；以及最佳化模組，用於比較該實際排序分數和理論排序分數，若兩者差值大於閾值，則最佳化該有效特徵的最終權重。