TWI486799B

TWI486799B - A method and a device for determining a weight value of a search word, a search result generating method, and a device

Info

Publication number: TWI486799B
Application number: TW099128885A
Authority: TW
Original assignee: Alibaba Group Holding Ltd
Priority date: 2010-08-27
Filing date: 2010-08-27
Publication date: 2015-06-01
Also published as: TW201209613A

Description

確定搜索詞權重值的方法和裝置，搜索結果生成方法和裝置

本申請係關於電腦應用領域，特別是關於一種確定搜索詞權重值的方法及裝置、搜索結果生成方法及裝置。

資訊搜索系統是一種能夠為用戶提供資訊檢索服務的系統，以網際網路中常用的搜索引擎為例，作為應用在網際網路領域的搜索系統，搜索引擎目前已經成為用戶上網必不可少的輔助工具之一。從用戶的角度看，搜索引擎一般提供一個包含搜索框的頁面，用戶在搜索框輸入查詢串，透過流覽器提交給搜索引擎後，搜索引擎就會返回與用戶輸入的查詢串內容相匹配的資訊。

對於用戶輸入的搜索請求，可以由一個或多個搜索片語成。當用戶輸入的搜索請求由多個搜索片語成時，搜索系統首先對用戶輸入的搜索請求進行分詞，得到多個搜索詞，再以搜索詞為單位匹配資料庫中的資訊。然後，系統按照各搜索詞的重要性對各搜索詞分別匹配到的資訊進行排序，返回搜索結果展現給用戶。

現有技術中，對於各搜索詞重要性的劃分往往是統計各搜索詞的詞頻得到的。具體的，系統定期對資料庫中保存的用戶的歷史搜索資訊進行統計，得到各搜索詞出現的頻率，作為搜索詞對應的詞頻。詞頻較高的搜索詞被認為是比較重要的；而詞頻偏低的搜索詞則被認為是不太重要的。

透過對現有技術的研究，發明人發現現有技術中採用詞頻確定各搜索詞的重要性存在的問題是：首先，詞頻統計時會包括大量的噪音詞，影響統計結果；其次，根據歷史搜索資訊統計詞頻，使得查詢次數不多但很有價值的搜索詞很容易被忽視。這導致利用現有技術得到的各搜索詞的重要性對搜索結果的排序不是十分合理，增加了用戶的查詢時間，甚至導致用戶重新輸入搜索詞進行搜索，增加了伺服器的負擔和能耗。

為解決上述技術問題，本發明提供了一種確定搜索詞權重值的方法及裝置、一種搜索結果生成方法及裝置，可以更為合理的確定用戶輸入的搜索請求中各搜索詞的重要性。

本發明提供一種確定搜索詞權重值的方法，包括以下步驟：接收輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；統計資料庫中保存的所述搜索資訊日誌，生成類目分佈詞表；從資料庫中提取屬性詞表，優化所述類目分佈詞表；以及根據優化後的所述類目分佈詞表，計算所述類目分佈詞表中各搜索詞的權重值。

本發明還提供一種搜索結果生成方法，包括以下步驟：接收輸入的搜索請求，獲取所述搜索請求中各搜索詞對應的權重值；將各搜索詞對應的匹配資訊按照各搜索詞對應的權重值排序；其中，各搜索詞對應的權重值透過下述步驟得到：接收輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；統計資料庫中保存的所述搜索資訊日誌，生成類目分佈詞表；所述類目分佈詞表包括：搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率；從資料庫中提取屬性詞表，優化所述類目分佈詞表；具體為：依次判斷所述類目分佈詞表中各搜索詞是否屬於所述屬性詞表，如果是，濾除所述搜索詞對應的搜索概率低於預設的第一臨界值的搜索類目；如果否，將所述搜索詞對應的各搜索類目的搜索概率平均化；以及根據優化後的所述類目分佈詞表，計算所述類目分佈詞表中各搜索詞的權重值。

本發明還提供一種確定搜索詞權重值的裝置，包括：日誌生成模組，用於接收輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；詞表生成模組，用於統計資料庫中保存的所述搜索資訊日誌，生成類目分佈詞表；所述類目分佈詞表包括：搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率；詞表優化模組，用於從資料庫中提取屬性詞表，優化所述類目分佈詞表；以及權重計算模組，用於根據優化後的所述類目分佈詞表，計算所述類目分佈詞表中各搜索詞的權重值。

本發明還提供一種搜索結果生成裝置，包括：日誌生成模組，用於接收輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；詞表生成模組，用於統計資料庫中保存的所述搜索資訊日誌，生成類目分佈詞表；所述類目分佈詞表包括：搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率；詞表優化模組，用於從資料庫中提取屬性詞表，優化所述類目分佈詞表；權重計算模組，用於根據優化後的所述類目分佈詞表，計算所述類目分佈詞表中各搜索詞的權重值；權重提取模組，用於接收輸入的搜索請求，獲取所述搜索請求中各搜索詞對應的權重值；以及結果生成模組，用於將各搜索詞對應的匹配資訊按照各搜索詞對應的權重值排序。

與現有技術相比，本發明實施例所述方法及裝置，統計各搜索詞在不同搜索類目中的分佈，計算各搜索類目的搜索概率，同時，根據搜索系統本身的屬性詞表進行優化過濾，在計算各搜索詞的權重。對於各搜索詞，如果其頻繁出現在多個搜索類目中，並且在各搜索類目的搜索概率很平均，那麼可以認為該搜索詞具有很大的通用性，該搜索詞對應的權重偏小，表明該搜索詞重要性偏低；相反，對於只出現在個別搜索類目中，並且在個別搜索類目的搜索概率較集中，認為該搜索詞具有較強的區分能力，其權重值較大，表明該搜索詞重要性偏高。

採用本發明所述方法及裝置，可以更為合理的確定用戶輸入的搜索請求中各搜索詞的重要性，從而使得返回的搜索結果的排序更加合理，減少了用戶的查詢時間，減輕了伺服器的負擔和能耗，提高用戶的體驗滿意度。

首先對本發明實施例的一種確定搜索詞權重值的方法，包括：接收用戶輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；統計資料庫中保存的所述搜索資訊日誌，生成類目分佈詞表；所述類目分佈詞表包括：搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率；從資料庫中提取屬性詞表，優化所述類目分佈詞表；具體為：依次判斷所述類目分佈詞表中各搜索詞是否屬於所述屬性詞表，如果是，濾除所述搜索詞對應的搜索概率低於預設的第一臨界值的搜索類目；如果否，將所述搜索詞對應的各搜索類目的搜索概率平均化；以及根據優化後的所述類目分佈詞表，計算所述類目分佈詞表中各搜索詞的權重值。

為了使本技術領域的人員更好地理解本發明中的技術方案，下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本發明保護的範圍。

下面以網路搜索應用為例，對本發明所提供的技術方案進行詳細說明，圖1所示為本發明實施例的確定搜索詞權重值的方法流程圖，包括以下步驟：步驟S101、系統接收用戶輸入的搜索請求和點擊資訊，生成搜索資訊日誌，並保存入資料庫；當用戶在搜索頁面上輸入搜索請求並點擊搜索後，所述用戶的搜索請求、點擊資訊會透過網路上的鏈結傳送到系統的後端伺服器。後端伺服器根據接收到的搜索請求和點擊資訊，生成搜索資訊日誌。

所述搜索資訊日誌包括：搜索詞、各搜索詞對應的搜索類目等。

對於網際網路中的資訊，很多都是按照一定的類目進行發佈的，例如，在門戶網站中，網頁類目可以包括新聞、體育、娛樂、財經等等，在電子商務網站中，商品類目包括家居、服飾、數位、食品等，而數位類目又可以包括手機、相機、電腦等等。那麼，對於用戶輸入的搜索請求，都會對應一個該搜索請求所在的類目，稱為搜索類目。

以電子商務網站為例進行說明，假設用戶的搜索請求為“相機”，用戶可以在各種商品類目下進行搜索。當用戶在家居類目下搜索“相機”時，則搜索詞“相機”對應的搜索類目即為“家居”；當用戶在數位類目下搜索“相機”時，則搜索詞“相機”對應的搜索類目即為“數位”。

需要說明的是，用戶輸入的所述搜索資訊可以為一個搜索詞，也可以是多個搜索片語成的搜索串。當所述搜索資訊為搜索串時，系統需要先對該搜索串進行分詞，得到多個搜索詞，再確定各搜索詞對應的搜索類目，生成搜索資訊日誌。當然，對於用戶一次輸入的搜索串分詞得到的各搜索詞，其對應的搜索類目是相同的。

例如，當用戶在家居類目下輸入的搜索請求為搜索串時，假設為“相機單鏡反光”，則首先系統對搜索串進行分詞，得到搜索詞“相機”、“單鏡反光”，則此時搜索詞“相機”對應的搜索類目為“家居”，搜索詞“單鏡反光”對應的搜索類目也為“家居”。

系統確定了各搜索詞對應的搜索類目後，生成相應的搜索資訊日誌，並保存入資料庫。

步驟S102、系統統計資料庫中保存的所述搜索資訊日誌，生成類目分佈詞表；其中，所述類目分佈詞表用於表示資料庫中保存的所有的搜索詞對應的搜索類目的分佈情況，具體為各搜索詞對應的各搜索類目的點擊次數。

具體地，對於同一搜索詞，當不同用戶採用該搜索詞進行搜索時，其對應的搜索類目可能是不同的。因此，在資料庫中保存的搜索資訊日誌中，該搜索詞對應的搜索類目也是不同的。步驟S102中，系統統計資料庫中保存的所有的搜索資訊日誌，對各搜索詞進行統計，統計同一搜索詞對應的所有搜索類目、以及各搜索類目的點擊次數，生成該搜索詞對應的搜索類目分佈資訊。

統計資料庫中所有的搜索詞的搜索類目分佈資訊，組合在一起，生成類目分佈詞表。

具體的，所述類目分佈詞表可以分為兩列，第一列為搜索詞，第二列為該搜索詞對應的搜索類目分佈資訊。所述搜索類目分佈資訊可以包括：該搜索詞對應的多個搜索類目的組合、以及各個搜索類目對應的點擊次數，其格式如下式所示：

Word cat1：weight1；cat2：weight2；…；catn：weightn

其中，Word為搜索詞；cati為該搜索詞對應的第i個搜索類目；weighti為該搜索詞對應的第i個搜索類目的點擊次數；i=1、2…n；n為該搜索詞對應的搜索類目的個數。

仍以“相機”為例進行說明。根據常識可知，一般電子網站均會將相機歸屬於“數位”類目。但是對於用戶而言，其並不一定只在“數位”類目下搜索相機，用戶有可能在“全部類目”下直接搜索相機，也可能在“家居”類目下搜索相機。根據步驟S101可知，對於每次用戶的點擊搜索，系統均會生成對應的搜索資訊日誌，用於記錄每個用戶每次輸入搜索詞“相機”時對應的搜索類目。

則步驟S102中，系統根據資料庫中保存的所有的搜索資訊日誌，對搜索詞“相機”對應的所有的搜索類目進行統計，得到搜索詞“相機”對應的搜索類目分佈資訊。

假設，透過統計得到，所述搜索詞“相機”對應的搜索類目包括：“全部類目”、“數位”、“家居”、“服裝”，且各搜索類目對應的點擊次數分別為：324、1290、34、8。此時，搜索詞“相機”對應的搜索類目分佈資訊為：

相機　全部類目：324；數位：1290；家居：34；服裝：8

優選地，本發明實施例中，為了更加清楚的表示各搜索詞對應的搜索類目的分佈情況，可以以概率形式表示各搜索類目對應的點擊次數。具體為，統計得到該搜索詞對應的點擊總次數，進而計算得到所述搜索詞對應的各搜索類目的搜索概率。此時，所述搜索類目分佈資訊可以包括：該搜索詞對應的多個搜索類目的組合、以及各個搜索類目對應的搜索概率，其格式如下式所示：

Word cat1：p1；cat2：p2；…；catn：pn

其中，Word為搜索詞；cati為該搜索詞對應的第i個搜索類目；pi為該搜索詞對應的第i個搜索類目的搜索概率；i=1、2、‥、n；n為該搜索詞對應的搜索類目的個數。

仍以搜索詞“相機”為例，當採用搜索概率時，其對應的搜索類目分佈資訊為：

相機　全部類目：19.6%；數位：77.9%；家居：2%；服裝：0.5%

對於本發明實施例，在以下實施方式的描述中，除特殊聲明外，所述搜索類目分佈資訊均是以搜索概率的形式表示。

需要說明的是，系統可以定期或不定期的對資料庫中保存的所述搜索資訊日誌進行統計，生成或更新所述類目分佈詞表。例如，系統可以設定每週或每月對所述類目分佈詞表自動更新一次；或者是，由系統維護人員自動選擇更新所述類目分佈詞表。

步驟S103、從資料庫中提取屬性詞表，優化過濾所述類目分佈詞表；對於網際網路資訊，系統會根據網站的性質在資料庫中保存該網站對應的屬性詞表，所述屬性詞表中保存有該網站的常規屬性辭彙。例如，在電子商務中，其常規的屬性辭彙一般包括商品的類型、品牌、型號等；故在電子商務網站中，當商家發佈商品資訊時，會填寫商品的類型、品牌、型號、顏色等資訊，此時系統會獲取商品的類型、品牌、型號、顏色等能夠表示該商品特定屬性的資訊，作為屬性資訊保存入資料庫中的屬性詞表中。例如，商家發佈一款相機時，填寫該手機品牌為“佳能”、類型為“單鏡反光”、型號為“D450”、顏色為“黑色”。此時，對於“佳能”、“單鏡反光”、“D450”都是可以表示相機的某一特定屬性的，而“黑色”則是比較大眾的辭彙。此時，系統將“佳能”、“單鏡反光”、“D450”保存入屬性詞表，而“黑色”不保存入屬性詞表。

優選地，系統可以對屬性詞表中的各屬性資訊進行分類，例如：“佳能”作為品牌詞；“單鏡反光”和“D450”作為屬性詞。通常所述屬性詞表中保存的均是商家和買家比較關注的並且能夠體現商品特性的資訊。

本發明實施例中，系統從資料庫中提取出所述屬性詞表，用於優化過濾步驟S102中生成的所述類目分佈詞表。

具體地，步驟S103中所述優化過濾所述類目分佈詞表包括以下步驟：步驟S1031：系統依次判斷所述類目分佈詞表中的各搜索詞是否屬於所述屬性詞表，如果是，進入步驟S1032；如果否，進入步驟S1033；步驟S1032：將所述搜索詞對應的各搜索類目的搜索概率與預設的第一臨界值相比較，濾除所述搜索詞對應的搜索概率低於所述第一臨界值的搜索類目；具體地，在實際應用中，由於用戶搜索的隨意性和自由性，很容易產生很多不相關的點擊資訊，造成干擾資訊，此類資訊需要濾除。

例如，個別客戶在“服裝”類目搜索“相機”，從而使得系統產生一次“搜索詞：相機；搜索類目：服裝”的資訊，但是很明顯“相機”和“服裝”是不相關的，在“服裝”類目下搜索“相機”的用戶記錄也是比較少的，可以認為這樣的記錄是一種干擾資訊，對於網站的準確搜索是沒有用途的，因此可以將其濾除。

此處仍以搜索詞“相機”為例進行說明。首先系統透過判斷，確定“相機”屬於屬性詞表，此時從所述類目分佈詞表中提取所述搜索詞“相機”對應的搜索類目分佈資訊為：

相機　全部類目：19.6%；數位：77.9%；家居：2%；服裝：0.5%

然後，對搜索詞“相機”對應的搜索類目分佈資訊進行優化，濾除搜索詞“相機”對應的搜索概率低於所述第一臨界值的搜索類目。具體的，假設預設的第一臨界值為5%，透過比較可知，搜索詞“相機”對應的搜索類目“家居”和“服裝”的搜索概率均低於5%，需要濾除，此時，對於搜索詞“相機”，優化後的搜索類目分佈資訊如下所示：

相機　全部類目：19.6%；數位：77.9%

步驟S1033：將所述搜索詞對應的各搜索類目的搜索概率平均化。

在實際應用中，有些用戶輸入的搜索詞並不能用於表明商品的屬性，只是一些用於減小搜索範圍的限制用辭彙，這些辭彙一般具有很強的公用性，例如“紅色”、“美觀”、“價廉”等。這些搜索詞可以用於對各種類目的商品進行搜索，例如即可以用於搜索“相機”，也可以用於搜索“上衣”，並不能對各類目商品進行區分。本發明實施例中，這類辭彙並不會被保存在屬性詞表中，因此當系統確定某搜索詞不屬於屬性詞表時，可以認為該辭彙為各類目通用辭彙，並不能用於表示某類目商品的特有屬性，其用於各搜索類目的搜索概率是平均的。此時，本發明實施例中，對該類搜索詞對應的各搜索類目的搜索概率進行平均化。

例如，假設用戶輸入的搜索串中包括搜索詞“美觀”，根據步驟S102生成的類目分佈詞表中，搜索詞“美觀”對應的搜索類目分佈資訊如下所示：

美觀　全部類目：21.2%；數位：15.7%；家居：35.4%；服裝：27.8%

首先，經過系統判斷，確定搜索詞“美觀”不屬於屬性詞表，此時需要對搜索詞“美觀”對應的各搜索類目的搜索概率進行平均化處理，得到優化後的類目分佈詞表中搜索詞“美觀”對應的搜索類目分佈資訊如下所示：

美觀　全部類目：25%；數位：25%；家居：25%；服裝：25%

本發明實施例中，對所述類目分佈詞表中包括的搜索詞依次進行優化，優化各搜索詞對應的搜索類目分佈資訊，進而實現對整個類目分佈詞表的優化。

具體為，依次判斷所述類目分佈詞表中各搜索詞是否屬於所述屬性詞表，對於屬於屬性詞表的搜索詞，濾除所述搜索詞對應的搜索類目中，搜索概率過低的搜索類目；對於不屬於屬性詞表的搜索詞，對所述搜索詞對應的各搜索類目的搜索概率進行平均化。由此，實現了對步驟S102中得到的類目分佈詞表的優化過濾，使得所述類目分佈詞表中各搜索詞對應的搜索概率分佈資訊更加合理。

步驟S104、根據優化後的所述類目分佈詞表，依次計算所述類目分佈詞表中各搜索詞的權重；本發明實施例中，採用資訊熵的方式表示各搜索詞的權重，以體現該搜索詞在資訊搜索過程中的重要程度。透過步驟S103得到優化後的所述類目分佈詞表後，可以根據所述類目分佈詞表中各搜索詞對應的搜索概率分佈資訊計算各搜索詞對應的熵。

需要說明的是，由於在計算熵時，需要保證所有搜索詞的維度是相同的，但是一般各搜索詞對應的搜索類目的個數是不相同的。此時，設定對於各搜索詞，其對應的搜索類目均為所述類目分佈詞表中包括的搜索類目的總個數；對於該搜索詞沒有包括的搜索類目，設定該搜索詞對應的所述搜索類目的搜索概率為0。

具體的，透過下式計算所述類目分佈詞表中各搜索詞對應的熵：

C(Word)=|p₁ logp₁ +p₂ logp₂ +p₃ logp₃ +‧‧‧‧+p_m logp_m |

其中，Word為搜索詞；p_i 為優化後的所述類目分佈詞表中所述搜索詞對應的第i個搜索類目的搜索概率，0<pi<1；i=1、2、…m；m為所述類目分佈詞表中搜索類目的總個數。

以搜索詞“相機”和“美觀”為例進行說明，其優化後的搜索類目分佈資訊分別為：

相機　全部類目：19.6%；數位：77.9%

美觀　全部類目：25%；數位：25%；家居：25%；服裝：25%

設定所述類目分佈詞表中搜索類目的總個數m=5，則搜索詞“相機”和“美觀”對應的熵分別為：

C(相機)=|0.196×log0.196+0.779×log0.779+0×log0+0×log0+0×log0|=0.2232

C(美觀)=|0.25×log0.25+0.25×log0.25+0.25×log0.25+0.25×log0.25+0×log0|=0.602

熵是資訊量無序度的度量。各搜索詞對應的熵越大說明搜索詞所表達的資訊越不確定，搜索詞相對越不重要。例如，搜索詞“相機”的熵小於搜索詞“美觀”的熵，可以認為搜索詞“美觀”相較搜索詞“相機”而言，不太重要。

優選地，本發明實施例中，可以直接將各搜索詞對應的熵作為各搜索詞對應的權重值。此時，對應的，搜索詞的權重值越低說明該搜索詞越重要，反之，權重值越高，說明該搜索詞越不重要。但是，這種表示權重值的方式並不符合人們習慣的認知方式。一般均認為，搜索詞越重要，其權重值應越高，反之，搜索詞越不重要，其權重值應越低。

因此，本發明實施例中，可以透過下述方式獲取各搜索詞的權重值：

WE(Word)=-C(Word)+C0

其中，Word為搜索詞；WE(Word)表示搜索詞Word對應的權重；C(Word)為搜索詞Word對應的熵；C0為基準值。

其中，C0大於所述類目分佈詞表中各搜索詞對應的熵的最大值，可以表示為：

C0>max(C1，C2‥‥Cj)

其中，j為所述類目分佈詞表中搜索詞的總個數。

例如：假設所述類目分佈詞表中各搜索詞對應的熵的最大值為0.99，則可以設定C0=1，此時，仍以搜索詞“相機”和“美觀”為例進行說明，有：

WE(相機)=-0.2232+1=0.7768

WE(美觀)=-0.602+1=0.398

此時，搜索詞“相機”對應的權重大於搜索詞“美觀”對應的權重，說明，搜索詞“相機”比搜索詞“美觀”重要。

至此，本發明實施例所述方法實現了對搜索詞的權重的計算。本發明實施例所提供的確定詞權重值的方法，統計各搜索詞在不同搜索類目中的分佈，計算各搜索類目的搜索概率，同時，根據搜索系統本身的屬性詞表進行優化過濾，再確定各搜索詞的權重值。對於各搜索詞，如果其頻繁出現在多個搜索類目中，並且在各搜索類目的搜索概率很平均，那麼可以認為該搜索詞具有很大的通用性，該搜索詞對應的權重偏小，表明該搜索詞重要性偏低；相反，對於只出現在個別搜索類目中，並且在個別搜索類目的搜索概率較集中，認為該搜索詞具有較強的區分能力，其權重值較大，表明該搜索詞重要性偏高。

採用本發明所述方法，可以更為合理的確定用戶輸入的搜索請求中各搜索詞的重要性，從而使得返回的搜索結果的排序更加合理，減少了用戶的搜索時間，提高了用戶的體驗滿意度。

具體的，前面已經說過，對於各搜索詞，其權重值代表了該搜索詞的重要程度。權重值越高，說明該搜索詞越重要；反之，權重值越低，說明該搜索詞不重要。從用戶的角度而言，當所述搜索詞對應的權重值越高時，說明用戶對該搜索詞的關注程度越高，因此，將權重值較高的搜索詞對應的匹配資訊靠前排序，優先展現給用戶，從而實現了搜索結果中排序在前的資訊是用戶更為關注的資訊，提高了用戶的體驗滿意度。

具體的，對於搜索詞“相機”和搜索詞“美觀”，很明顯，用戶優先關注的應是“相機”對應的搜索結果，進一步才是“美觀”對應的搜索結果。而同時，可以看到，系統從資料庫中獲取的，搜索詞“相機”對應的權重高於搜索詞“美觀”的權重。因此，在返回搜索結果時，將搜索詞“相機”對應的匹配資訊靠前排序，搜索詞“美觀”對應的匹配資訊靠後排序。由此使得用戶更為關注的搜索資訊排在靠前的位置，更便捷了用戶的搜索，提高了用戶的滿意程度。

對於不同的搜索詞，一般都表示不同類型的資訊。對於用戶的搜索，各類型資訊的關注程度是基本確定的。

例如，在商務網站中，對於搜索詞一般可以區分為以下類型：產品詞、品牌詞、屬性詞等。所述產品詞用於表示某一商品的類別，例如該商品是屬於相機、服裝、還是食品等；所述品牌詞用於表示某一商品的品牌，例如該商品品牌為佳能、尼康、還是富士等；所述屬性詞用於表示商品的特有屬性，例如該商品為單鏡反光機、卡片機等。

對於不同類型的搜索詞，可以預先設定其關注程度。例如，對於商務網站，一般可以認為產品詞比品牌詞更受關注，品牌詞比屬性詞更受關注。因此，本發明實施例所述方法中，根據各搜索詞的類型，對各搜索詞的權重進行修正，使得關注程度較高的類型的搜索詞對應的權重值高於關注程度較低的類型的搜索詞對應的權重值。

具體地，以商務網站為例，使得屬於產品詞的搜索詞對應的權重值高於屬於品牌詞的搜索詞對應的權重值，同時，使得屬於品牌詞的搜索詞對應的權重值高於屬於屬性詞的搜索詞對應的權重值。

例如，假設對於搜索詞“相機”、“佳能”、“單鏡反光”，透過步驟S104中計算得到的各搜索詞對應的權重值分別為：

WE(相機)=0.7768

WE(佳能)=0.5982

WE(單鏡反光)=0.8781

此時，可以發現WE(相機)高於WE(佳能)，而WE(佳能)低於WE(單鏡反光)，即為當前權重滿足了產品詞的權重高於品牌詞的權重，但是品牌詞的權重卻低於了屬性詞權重。因此，優選地，還可對步驟S104計算得到的權重值進行修正。具體地，所述修正過程包括：對所述類目分佈詞表中的搜索詞進行分類，確定各類型搜索詞的關注度；對各類型的搜索詞對應的權重進行修正，使得關注度高的搜索詞對應的權重值高於關注度低的搜索詞對應的權重值。

具體地，所述對各類型的搜索詞對應的權重進行修正，具體為：

對各類型搜索詞對應的權重值分別加上該類型搜索詞對應的修正值。

例如，仍以搜索詞“相機”、“佳能”、“單鏡反光”為例進行說明。

WE’(相機)=WE(相機)+△WE(產品詞)

WE’(佳能)=WE(佳能)+△WE(品牌詞)

WE’(單鏡反光)=WE(單鏡反光)+△WE(屬性詞)

具體的，透過對各類型搜索詞對應的權重值WE(Word)加上對應的修正值△WE(Word)，使得修正後的關注度高的搜索詞對應的權重值WE’(Word)大於關注度較低的搜索詞對應的權重值。

例如，可以設定△WE(產品詞)=1，△WE(品牌詞)=0.8，△WE(屬性詞)=0.3；此時修正後的搜索詞“相機”、“佳能”、“單鏡反光”的權重值分別為：

WE’(相機)=0.7768+1.0=1.7768

WE’(佳能)=0.5982+0.8=1.3982

WE’(單鏡反光)=0.8781+0.3=1.1781

由此使得，WE’(相機)高於WE’(佳能)，而WE’(佳能)高於WE’(單鏡反光)，即為當前權重滿足了產品詞的權重高於品牌詞的權重，且品牌詞的權重高於屬性詞權重。

本發明實施例還提供一種搜索結果生成方法。參照圖2，為本發明實施例的搜索結果生成方法流程圖。所述方法包括：步驟S201、系統接收用戶輸入的搜索請求，獲得所述搜索請求中各搜索詞對應的權重值；當系統接收到用戶輸入的搜索請求時，會對所述搜索請求進行分詞處理。當所述搜索請求僅僅為一個詞時，則分詞處理後得到的搜索詞即為該搜索詞本身，例如，搜索請求為“相機”，則搜索詞即為“相機”；當所述搜索請求包括多個詞時，則分詞處理後得到的搜索詞為多個，例如，搜索請求為“相機美觀”，則搜索詞為“相機”和“美觀”。

對於分詞處理後得到的各搜索詞，系統查詢所述資料庫，獲取各搜索詞對應的權重值。例如，系統透過查詢資料庫，得到所述搜索詞“相機”何搜索詞“美觀”分別對應的權重值為：

WE(相機)=0.7768

WE(美觀)=0.398

其中，所述搜索詞的權重值的確定方法與上述本發明實施例中的所述確定搜索詞權重值的方法相同，在此不再贅述。

步驟S202、將各搜索詞對應的匹配資訊按照各搜索詞對應的權重值排序，展現給用戶。

針對用戶在搜索時所輸入的搜索資訊，搜索引擎往往能夠檢索到多條匹配資訊，這個數量可能會達到數十至數萬。從用戶的角度來講，往往只會重點關注在搜索結果中排序比較靠前的資訊。這樣，在搜索引擎向用戶提供搜索結果時，如何對這些資訊進行排序就顯得尤為重要，搜索結果的排序是否合理將直接影響著用戶的體驗。

優選地，本發明實施例所述方法中，還可以進一步包括：

根據步驟S201中獲取所述搜索請求中各搜索詞對應的權重值，對各搜索詞進行主、輔搜索詞劃分。

具體地，當所述搜索詞對應的權重值大於預設的第二臨界值時，確定所述搜索詞為主搜索詞；否則，確定所述搜索詞為輔搜索詞。

系統根據所述搜索請求中包括的各搜索詞進行搜索時，以所述主搜索詞為主，其返回的搜索結構中，必須包含所述主搜索詞，而所述輔搜索詞則可有可無。但是，所述輔搜索詞可以幫助系統對返回給用戶的搜索結果進行排序，將含有該輔搜索詞的搜索結果排在不含有輔搜索詞的搜索結果之前。

本發明實施例中，根據所述搜索資訊中各搜索詞的權重值，對各搜索詞對應的匹配資訊進行排序，並將排序後的匹配資訊作為搜索結果展現給用戶。當所述搜索詞對應的權重值越高時，說明用戶對該搜索詞的關注程度越高，因此，將權重值較高的搜索詞對應的匹配資訊靠前排序，優先展現給用戶，從而實現了搜索結果中排序在前的資訊是用戶更為關注的資訊，提高了用戶的體驗滿意度。

以上介紹以電子商務搜索為例對本發明技術方案進行了介紹，可以理解的是，這只是本發明技術方案的舉例說明，事實上，本發明技術方案可以應用於各類搜索需求，例如圖書資料庫搜索、文獻資料庫搜索等。並且應用範圍也僅不局限於網際網路領域，其他如單機、局域網中的搜索，都可以應用本發明所提供的技術方案。

對應於上述確定搜索詞權重值的方法實施例，本發明還提供一種確定搜索詞權重值的裝置，參照圖3所示，所述裝置包括：日誌生成模組10，用於接收用戶輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；詞表生成模組20，用於統計資料庫中保存的所述搜索資訊日誌，生成類目分佈詞表；所述類目分佈詞表包括：搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率；詞表優化模組30，用於從資料庫中提取屬性詞表，優化所述類目分佈詞表；權重計算模組40，用於根據優化後的所述類目分佈詞表，計算所述類目分佈詞表中各搜索詞的權重。

參照圖4所示，所述詞表優化模組30包括：判斷子模組301，用於依次判斷所述類目分佈詞表中各搜索詞是否屬於所述屬性詞表；屬性詞優化子模組302，用於當所述判斷子模組的結果為是時，濾除所述搜索詞對應的搜索概率低於預設的第一臨界值的搜索類目；非屬性詞優化子模組303，用於當所述判斷子模組的結果為否時，將所述搜索詞對應的各搜索類目的搜索概率平均化。

優選地，本發明實施例中，所述權重計算模組40透過下述方式計算所述類目分佈詞表中各搜索詞的權重：

WE(Word)=-C(Word)+C0

其中，Word為搜索詞；WE(Word)為所述搜索詞對應的權重；C(Word)為所述搜索詞對應的熵；C0大於等於所述類目分佈詞表中各搜索詞對應的熵的最大值。

所述權重計算模組40透過下述方式計算搜索詞對應的熵：

C(Word)=|p₁ logp₁ +p₂ logp₂ +p₃ logp₃ +‧‧‧‧+p_m logp_m |

其中，Word為搜索詞；p_i 為優化後的所述類目分佈詞表中所述搜索詞對應的第i個搜索類目的搜索概率，0<p_i <1；i=1、2、…m；m為所述類目分佈詞表中搜索類目的總個數。

優選地，所述裝置還包括：分類模組，用於對所述類目分佈詞表中的搜索詞進行分類，確定各類型搜索詞的關注度；修正模組，用於對各類型的搜索詞對應的權重進行修正，使得關注度高的搜索詞對應的權重值高於關注度低的搜索詞對應的權重值。

對應於上述搜索結果生成方法實施例，本發明還提供一種搜索結果生成裝置，參照圖5所示，所述裝置包括：日誌生成模組100，用於接收用戶輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；詞表生成模組200，用於統計資料庫中保存的所述搜索資訊日誌，生成類目分佈詞表；所述類目分佈詞表包括：搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率；詞表優化模組300，用於從資料庫中提取屬性詞表，優化所述類目分佈詞表；權重計算模組400，用於根據優化後的所述類目分佈詞表，計算所述類目分佈詞表中各搜索詞的權重值。

權重提取模組500，用於接收用戶輸入的搜索請求，獲取所述搜索請求中各搜索詞對應的權重值；結果生成模組600，用於將各搜索詞對應的匹配資訊按照各搜索詞對應的權重值排序。

優選地，所述詞表優化模組300具體包括：判斷子模組，用於依次判斷所述類目分佈詞表中各搜索詞是否屬於所述屬性詞表；屬性詞優化子模組，用於當所述判斷子模組的結果為是時，濾除所述搜索詞對應的搜索概率低於預設的第一臨界值的搜索類目；非屬性詞優化子模組，用於當所述判斷子模組的結果為否時，將所述搜索詞對應的各搜索類目的搜索概率平均化；優選地，所述搜索結果生成裝置還包括：主詞設定模組，用於當所述搜索詞對應的權重值大於預設的第二臨界值時，確定所述搜索詞為搜索主詞。

為了描述的方便，描述以上裝置時以功能分為各種模組分別描述。當然，在實施本發明時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。

透過以上的實施方式的描述可知，本領域的技術人員可以清楚地瞭解到本發明可藉由軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解，本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來，該電腦軟體產品可以儲存在儲存媒體中，如ROM/RAM、磁碟、光碟等，包括若干指令用以使得一台電腦設備(可以是個人電腦，伺服器，或者網路設備等)執行本發明各個實施例或者實施例的某些部分所述的方法。

本說明書中的各個實施例均採用遞進的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對於系統實施例而言，由於其基本相似於方法實施例，所以描述得比較簡單，相關之處參見方法實施例的部分說明即可。以上所描述的系統實施例僅僅是示意性的，其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位於一個地方，或者也可以分佈到多個網路單元上。可以根據實際的需要選擇其中的部分或者全部模組來實現本實施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下，即可以理解並實施。

本發明可用於眾多通用或專用的計算系統環境或配置中。例如：個人電腦、伺服器電腦、手持設備或可擕式設備、平板型設備、多處理器系統、基於微處理器的系統、置頂盒、可編程的消費電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式計算環境等等。

本發明可以在由電腦執行的電腦可執行指令的一般上下文中描述，例如程式模組。一般地，程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式計算環境中實踐本發明，在這些分散式計算環境中，由透過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中，程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存媒體中。

以上所述僅是本發明的具體實施方式，應當指出，對於本技術領域的普通技術人員來說，在不脫離本發明原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應視為本發明的保護範圍。

10．．．日誌生成模組

20．．．詞表生成模組

30．．．詞表優化模組

40．．．權重計算模組

100．．．日誌生成模組

200．．．詞表生成模組

300．．．詞表優化模組

301．．．判斷子模組

302．．．屬性詞優化子模組

303．．．非屬性詞優化子模組

400．．．權重計算模組

500．．．權重提取模組

600．．．結果生成模組

為了更清楚地說明本發明實施例或現有技術中的技術方案，下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明中記載的一些實施例，對於本領域普通技術人員來講，在不付出創造性勞動性的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本發明實施例的確定搜索詞權重值的方法流程圖；

圖2為本發明實施例的搜索結果生成方法流程圖；

圖3為本發明實施例的確定搜索詞權重值的裝置結構示意圖；

圖4為本發明實施例的詞表優化模組結構示意圖；以及

圖5為本發明實施例的搜索結果生成裝置結構示意圖。

Claims

一種確定搜索詞權重值的方法，包括以下步驟：接收輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；統計資料庫中保存的該搜索資訊日誌，生成類目分佈詞表，其中該類目分佈詞表包括：搜索詞、該搜索詞對應的搜索類目、該搜索詞對應的各搜索類目的搜索概率；從資料庫中提取屬性詞表，優化該類目分佈詞表，其中優化該類目分佈詞表具體為：依次判斷該類目分佈詞表中各搜索詞是否屬於該屬性詞表，如果是，濾除該搜索詞對應的搜索概率低於預設的第一臨界值的搜索類目；如果否，將該搜索詞對應的各搜索類目的搜索概率平均化；以及根據優化後的該類目分佈詞表，計算該類目分佈詞表中各搜索詞的權重值。
如申請專利範圍第1項的確定搜索詞權重值的方法，其中：藉由下述方式計算該類目分佈詞表中各搜索詞的權重值：WE(Word)=-C(Word)+C0其中，Word為搜索詞；WE(Word)為該搜索詞對應的權重值；C(Word)為該搜索詞對應的熵；C0大於等於該類目分佈詞表中各搜索詞對應的熵的最大值。
如申請專利範圍第2項的確定搜索詞權重值的方法，其中，藉由下述方式計算搜索詞對應的熵：C(Word)=|p₁ logp₁ +p₂ logp₂ +p₃ logp₃ +．．．．+p_m logp_m |其中，Word為搜索詞；p_i 為優化後的該類目分佈詞表中該搜索詞對應的第i個搜索類目的搜索概率，0<p_i <1；i=1、2、…m；m為該類目分佈詞表中搜索類目的總個數。
如申請專利範圍第1項的確定搜索詞權重值的方法，其中，該方法還包括：對該類目分佈詞表中的搜索詞進行分類，確定各類型搜索詞的關注度；對各類型的搜索詞對應的權重進行修正，使得關注度高的搜索詞對應的權重值高於關注度低的搜索詞對應的權重值。
一種搜索結果生成方法，包括以下步驟：接收輸入的搜索請求，獲取該搜索請求中各搜索詞對應的權重值；將各搜索詞對應的匹配資訊按照各搜索詞對應的權重值排序；其中，各搜索詞對應的權重值藉由下述步驟得到：接收輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；統計資料庫中保存的該搜索資訊日誌，生成類目分佈詞表；該類目分佈詞表包括：搜索詞、該搜索詞對應的搜索類目、該搜索詞對應的各搜索類目的搜索概率；從資料庫中提取屬性詞表，優化該類目分佈詞表；具體為：依次判斷該類目分佈詞表中各搜索詞是否屬於該屬性詞表，如果是，濾除該搜索詞對應的搜索概率低於預設的第一臨界值的搜索類目；如果否，將該搜索詞對應的各搜索類目的搜索概率平均化；根據優化後的所述類目分佈詞表，計算所述類目分佈詞表中各搜索詞的權重值，其中藉由下述方式計算該類目分佈詞表中各搜索詞的權重值：WE(Word)=-C(Word)+C0其中，Word為搜索詞；WE(Word)為該搜索詞對應的權重值；C(Word)為該搜索詞對應的熵；C0大於等於該類目分佈詞表中各搜索詞對應的熵的最大值。
一種確定搜索詞權重值的裝置，包括：日誌生成模組，用於接收輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；詞表生成模組，用於統計資料庫中保存的該搜索資訊日誌，生成類目分佈詞表；該類目分佈詞表包括：搜索詞、該述搜索詞對應的搜索類目、該搜索詞對應的各搜索類目的搜索概率；詞表優化模組，用於從資料庫中提取屬性詞表，優化該類目分佈詞表；以及權重計算模組，用於根據優化後的該類目分佈詞表，計算該類目分佈詞表中各搜索詞的權重值，其中，該詞表優化模組包括：判斷子模組，用於依次判斷該類目分佈詞表中各搜索詞是否屬於所述屬性詞表；屬性詞優化子模組，用於當該判斷子模組的結果為是時，濾除該搜索詞對應的搜索概率低於預設的第一臨界值的搜索類目；以及非屬性詞優化子模組，用於當該判斷子模組的結果為否時，將該搜索詞對應的各搜索類目的搜索概率平均化。
如申請專利範圍第6項的確定搜索詞權重值的裝置，還包括：分類模組，用於對該類目分佈詞表中的搜索詞進行分類，確定各類型搜索詞的關注度；以及修正模組，用於對各類型的搜索詞對應的權重值進行修正，使得關注度高的搜索詞對應的權重值高於關注度低的搜索詞對應的權重值。
一種搜索結果生成裝置，包括：日誌生成模組，用於接收輸入的搜索請求和點擊資訊，生成搜索資訊日誌，保存入資料庫；詞表生成模組，用於統計資料庫中保存的該搜索資訊日誌，生成類目分佈詞表；該類目分佈詞表包括：搜索詞、該搜索詞對應的搜索類目、該搜索詞對應的各搜索類目的搜索概率；詞表優化模組，用於從資料庫中提取屬性詞表，優化該類目分佈詞表，其中優化該類目分佈詞表具體為：依次判斷該類目分佈詞表中各搜索詞是否屬於該屬性詞表，如果是，濾除該搜索詞對應的搜索概率低於預設的第一臨界值的搜索類目；如果否，將該搜索詞對應的各搜索類目的搜索概率平均化；權重計算模組，用於根據優化後的該類目分佈詞表，計算該類目分佈詞表中各搜索詞的權重值；權重提取模組，用於接收輸入的搜索請求，獲取該搜索請求中各搜索詞對應的權重值；以及結果生成模組，用於將各搜索詞對應的匹配資訊按照各搜索詞對應的權重值排序。