TWI544351B - Extended query method and system - Google Patents

Extended query method and system Download PDF

Info

Publication number
TWI544351B
TWI544351B TW101142223A TW101142223A TWI544351B TW I544351 B TWI544351 B TW I544351B TW 101142223 A TW101142223 A TW 101142223A TW 101142223 A TW101142223 A TW 101142223A TW I544351 B TWI544351 B TW I544351B
Authority
TW
Taiwan
Prior art keywords
query
query word
word
target
normalized
Prior art date
Application number
TW101142223A
Other languages
English (en)
Other versions
TW201405342A (zh
Inventor
Li Zhu
Jing Dong
yun-ping Huang
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201405342A publication Critical patent/TW201405342A/zh
Application granted granted Critical
Publication of TWI544351B publication Critical patent/TWI544351B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

擴展查詢方法及系統
本申請係關於電腦資料處理技術領域,特別係關於一種擴展查詢方法及系統。
隨著網路技術的發展,搜索引擎得到了不斷的完善,透過搜索引擎可以從互聯網上獲取各種資訊。搜索引擎是當前互聯網幫助用戶快速獲取資訊的主要途徑之一。用戶提交一個查詢詞(Query)給搜索引擎,搜索引擎返回給用戶與該查詢詞相關的搜索結果。
在電子商務網站中,特別是對於大型的電子商務網站來說,因為所涉及的商品數量較大,用戶往往也需要透過查詢詞的方式進行搜索來查找其所需要的商品。因為用戶輸入的查詢詞多是根據自己的意願組合而成,這可能會出現能夠與查詢詞匹配的結果過少或者過多的情況,查詢結果準確度不高的情況,往往需要反覆搜索。為此搜索引擎往往會對查詢詞進行擴展或者改寫,豐富查詢資訊,智慧的對用戶輸入的查詢詞進行最佳化,從而提高搜索結果的準確性,同時降低用戶因為反覆搜索而給伺服器帶來的壓力。
常見的查詢詞擴展方法有在查詢端和索引端進行擴展。其中,在查詢端擴展主要包括對查詢詞進行增詞、換詞和去詞。即在用戶輸入的查詢詞的基礎上增加、替換或 者去掉其中的某一個字或者某個部分。例如,用戶輸入的查詢詞為“諾基亞手機”,那麼對查詢詞進行增詞擴展則可以是“諾基亞N95手機”等等;進行去詞擴展則可以是“諾基亞”或者“手機”;進行換詞擴展則可以是“三星手機”或者“蘋果手機”等等。在索引端擴展主要是在索引端對查詢詞進行同義詞擴展。一般透過常規的資料探勘等方式獲取到同義詞集合,當某個詞出現時,則從同義詞集合中提取其他同義詞進行擴展。為了保證搜索結果與查詢詞的準確性,在擴展查詢時會採用查詢端和索引端同時擴展的方式,即查詢端和索引端分別對查詢詞進行擴展後得到各自的擴展詞,然後選取相同的擴展詞所對應的結果作為擴展結果。在實際處理時,搜索引擎通常會按照一定的順序逐個選取查詢端的擴展詞進行檢索,並與索引端的擴展詞進行匹配,若能夠匹配上,則返回該擴展詞的檢索結果。在此過程中,可能出現,查詢端的擴展詞有多個,索引端的擴展詞有一個,若按照順序,查詢端的最後一個擴展詞與索引端的擴展詞匹配,那麼搜索引擎無疑需要進行多次檢索查詢,直到用最後一個擴展詞檢索查詢時才能夠與索引端的擴展詞匹配,這就增加了搜索引擎無效檢索的次數以及系統返回搜索結果的時間,降低系統回應速度,並造成對系統資源的佔用。
本申請提供一種擴展查詢方法及系統,能夠解決利用 查詢詞查詢時,搜索引擎反覆檢索匹配查詢詞而導致檢索次數增加以及佔用系統過多資源,影響系統回應速度和效率的問題。
為了解決上述問題,本申請公開了一種擴展查詢方法,包括以下步驟:獲取用戶輸入的查詢詞;根據該查詢詞確定該查詢詞的歸一化查詢詞;將該歸一化查詢詞作為該查詢詞的擴展詞進行擴展查詢;其中,該查詢詞的歸一化查詢詞採用如下方式確定:獲取用戶搜索日誌中的session資訊;獲取單個session內出現的所有查詢詞,統計各查詢詞的投票數,在該單個session內,按照各查詢詞出現的先後順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票;根據目標查詢詞在所有session內的總投票數以及單個查詢詞對目標查詢詞的投票數確定單個查詢詞和目標查詢詞的投票相似度;根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度;根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞。
進一步地,該目標查詢詞在所有session內的總投票數採用如下方式統計: 獲取包含有目標查詢詞的session;統計該目標查詢詞在每個session內的投票數;將該每個session內的投票數累加得到該目標查詢詞的總投票數。
進一步地,該單個查詢詞對目標查詢詞的投票數採用如下方式統計:獲取同時包含單個查詢詞和目標查詢詞的session;判斷該session內,該單個查詢詞對目標查詢詞是否有投票,若是,則選取該session;統計所有被選取session的數量,得到該單個查詢詞對目標查詢詞的投票數。
進一步地,該確定單個查詢詞和目標查詢詞的投票相似度包括:將該單個產品對單個查詢詞對目標查詢詞的投票數占目標查詢詞的總投票數的比例作為該單個查詢詞和目標查詢詞的投票相似度。
進一步地,該確定單個查詢詞和目標查詢詞的投票相似度包括:確定對目標查詢詞的每個投票的權重和基數;根據該權重和基數計算每個投票的得分;將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
進一步地,該根據該單個查詢詞和目標查詢詞的關聯 度確定該目標查詢詞的歸一化查詢詞包括:設定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關聯度值超過該歸一化產品閾值,則確定該單個查詢詞為目標查詢詞的歸一化查詢詞。
進一步地,該根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞包括:將歸一化查詢詞類別分為同義歸一化查詢詞、相關歸一化查詢詞和擴展歸一化查詢詞三個類別;按照關聯度值由大到小設定該三個類別各自的取值範圍;將該單個查詢詞和目標查詢詞的關聯度所屬的取值範圍對應的類別作為該單個查詢詞和目標查詢詞的細化類別。
進一步地,該方法在根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度之前還包括:獲取用戶搜索日誌中搜索結果的點擊資訊;根據該點擊資訊中提取包含有目標查詢詞的搜索結果;根據所有包含有目標查詢詞的搜索結果被點擊的總次數以及單個查詢詞所對應的包含有目標查詢詞的搜索結果被點擊的次數確定單個查詢詞和目標查詢詞的點擊相似度;該確定單個查詢詞和目標查詢詞的關聯度包括:根據該投票相似度和點擊相似度確定單個查詢詞和目標查詢詞 的關聯度。
進一步地,該根據該投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關聯度包括:將投票相似度和點擊相似度中的較大值作為單個查詢詞和目標查詢詞的關聯度;或確定投票相似度和點擊相似度的權重;根據該投票相似度和點擊相似度和各自的權重按照預定規則計算得到單個查詢詞和目標查詢詞的關聯度。
進一步地,在根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度之前還包括:獲取伺服器中儲存的賣家資料,該賣家資料為賣家對產品進行描述時所確定的產品描述資訊;解析該賣家資料,提取其中的查詢詞以及查詢詞的特徵詞;根據單個查詢詞和目標查詢詞的特徵詞確定特徵相似度;該根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度包括:根據該投票相似度和特徵相似度確定單個查詢詞和目標查詢詞的關聯度。
進一步地,該根據單個查詢詞和目標查詢詞的特徵詞確定特徵相似度包括:計算每個特徵詞的特徵值,該特徵值根據特徵詞及對應的查詢詞的點互資訊計算得到;根據特徵值計算單個查詢詞和目標查詢詞的特徵相似 度。
進一步地,該根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞之前還包括:確定單個查詢詞和目標查詢詞的語義相似度和/或類目相似度;該根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞包括:根據該單個查詢詞和目標查詢詞的關聯度和語義相似度確定該目標查詢詞的歸一化查詢詞;或根據該單個查詢詞和目標查詢詞的關聯度和類目相似度確定該目標查詢詞的歸一化查詢詞;或根據該單個查詢詞和目標查詢詞的關聯度、語義相似度和類目相似度確定該目標查詢詞的歸一化查詢詞。
進一步地,該確定單個查詢詞和目標查詢詞的語義相似度包括:確定單個查詢詞和目標查詢詞的編輯距離,該編輯距離指二者之間由一個詞轉化為另一詞所需的最少編輯操作次數;對該編輯距離進行歸一化處理得到與關聯度具有相同量化級的語義相似度。
本申請還公開了一種擴展查詢系統,包括:查詢詞輸入模組,用於獲取用戶輸入的查詢詞;歸一化查詢詞確定模組,用於根據該查詢詞確定該查詢詞的歸一化查詢詞;擴展查詢模組,用於將該歸一化查詢詞作為該查詢詞 的擴展詞進行擴展查詢;其中,該歸一化查詢詞確定模組包括:session資訊獲取模組,用於獲取用戶搜索日誌中的session資訊;查詢詞投票數統計模組,用於獲取單個session內出現的所有查詢詞,統計各查詢詞的投票數,在該單個session內,按照各查詢詞出現的先後順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票;投票相似度確定模組,用於根據目標查詢詞在所有session內的總投票數以及單個查詢詞對目標查詢詞的投票數確定單個查詢詞和目標查詢詞的投票相似度;關聯度確定模組,用於根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度;歸一化查詢詞確定模組,用於根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞。
進一步地,該投票相似度確定模組包括:基數和權重確定單元,用於確定對目標查詢詞的每個投票的權重和基數;得分計算單元,用於根據該權重和基數計算每個投票的得分;比例計算單元,用於將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
進一步地,該歸一化查詢詞確定模組包括:歸一化查詢詞閾值設定單元,用於設定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關聯度值超過該歸一化產品閾值,則確定該單個查詢詞為目標查詢詞的歸一化查詢詞。
進一步地,該歸一化查詢詞確定模組還包括:歸一化查詢詞類別區分單元,用於將歸一化查詢詞類別分為同義歸一化查詢詞、相關歸一化查詢詞和擴展歸一化查詢詞三個類別;取值範圍設定單元,用於按照關聯度值由大到小設定該三個類別的取值範圍;類別確定單元,用於將該單個查詢詞和目標查詢詞的關聯度所屬的取值範圍對應的類別作為該單個查詢詞和目標查詢詞的細化類別。
進一步地,該歸一化查詢詞確定模組還包括:點擊資訊獲取模組,用於獲取用戶搜索日誌中搜索結果的點擊資訊;搜索結果提取模組,用於根據該點擊資訊中提取包含有目標查詢詞的搜索結果;點擊相似度確定模組,根據所有包含有目標查詢詞的搜索結果被點擊的總次數以及單個查詢詞所對應的包含有目標查詢詞的搜索結果被點擊的次數確定單個查詢詞和目標查詢詞的點擊相似度;該關聯度確定模組用於根據該投票相似度和點擊相似 度確定單個查詢詞和目標查詢詞的關聯度。
進一步地,該歸一化查詢詞確定模組還包括:賣家資料獲取模組,用於獲取伺服器中儲存的賣家資料,該賣家資料為賣家對產品進行描述時所確定的產品描述資訊;資料解析模組,用於解析該賣家資料,提取其中的查詢詞以及查詢詞的特徵詞;特徵相似度確定模組,用於根據單個查詢詞和目標查詢詞的特徵詞確定特徵相似度;該關聯度確定模組用於根據該投票相似度和特徵相似度確定單個查詢詞和目標查詢詞的關聯度。
進一步地,該特徵相似度確定模組包括:特徵值計算單元,用於計算每個特徵詞的特徵值,該特徵值根據特徵詞及對應的查詢詞的點互資訊計算得到,並根據特徵值計算單個查詢詞和目標查詢詞的特徵相似度。
進一步地,該歸一化查詢詞確定模組還包括語義相似度確定模組和/或類目相似度確定模組,用於確定單個查詢詞和目標查詢詞的語義相似度和/或類目相似度;該歸一化查詢詞確定模組用於根據該單個查詢詞和目標查詢詞的關聯度和語義相似度確定該目標查詢詞的歸一化查詢詞;或根據該單個查詢詞和目標查詢詞的關聯度和類目相似度確定該目標查詢詞的歸一化查詢詞;或根據該單個查詢詞和目標查詢詞的關聯度、語義相似度和類目相 似度確定該目標查詢詞的歸一化查詢詞。
進一步地,該語義相似度確定模組包括:編輯距離計算單元,用於確定單個查詢詞和目標查詢詞的編輯距離,該編輯距離指二者之間由一個詞轉化為另一詞所需的最少編輯操作次數;歸一化處理單元,用於對該編輯距離進行歸一化處理得到與關聯度具有相同量化級的語義相似度。
與現有技術相比,本申請包括以下優點:本申請的擴展查詢方法及系統透過利用用戶搜索日誌中的session資訊對查詢詞進行歸一化處理,將具有相同或相近似意思的查詢詞視為相同或相似,在獲取到一個查詢詞時,可以自動實現利用該查詢詞歸一化的查詢詞同時進行擴展搜索,在增加搜索結果範圍的同時可以保證搜索結果的準確性。利用用戶搜索日誌中的session資訊來進行歸一化處理,在處理過程中提取每個session內所包含的查詢詞,並按照查詢詞出現的先後順序來對用戶行為進行分析,從而可以得出每個用戶在進行搜索時查詢詞的變化過程。因為單個session內記錄的是一個較短且不間斷時間內的用戶搜索資訊,因此單個session內的查詢詞的關聯度也會較大。因此,基於session資訊這一特點來進行擴展查詢處理,可以提高歸一化處理的效果,保證最後實現歸一化的兩個查詢詞具有足夠高的關聯度,從而使最終的搜索結果的準確性能夠得到保證,並可以減少檢索的次數,從而減少對系統資源的佔用並提高系統的回應速度 和擴展查詢效率。
其次,因為session資訊這一特點,降低了關聯度較小的查詢詞在同一session內出現的機率,從而可以縮小歸一化處理的資料範圍,從而提高處理速度,節省處理時間。
另外,在進行處理時,除了考慮session資訊,本申請進一步可選擇地增加了用戶點擊資訊以及賣家資料兩個維度,從而提高了歸一化處理的準確性。
當然,實施本申請的任一產品不一定需要同時達到以上所述的所有優點。
為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。
本申請的查詢詞可以是用戶輸入的用於查詢得到其期望結果的關鍵字。例如包括產品名稱、品牌、型號、或者其他詞語。在特殊領域,可以是特殊類別的詞語,例如,對於電子商務網站來說,查詢詞可以是表示產品名稱或者類別的產品詞。例如,手機、連衣裙等等。因為產品詞可以相對有效的提高搜索結果與用戶期望的匹配度,因此產品詞是一種常見的查詢詞。透過對用戶搜索日誌進行分析,大約有57%的查詢是利用產品詞搜索,有近88%的查詢中包含產品詞。另一方面,電子商務網站中產品的提供 方,會對產品進行描述並儲存在伺服器中,其中包括產品名稱和詳細描述。電子商務網站中的搜索引擎一般的搜索方法時,將用戶輸入的產品詞與伺服器中的產品名稱進行匹配,根據匹配結果得到搜索結果。因此,如何將用戶輸入的產品詞與產品提供方儲存在伺服器中的產品名稱等資訊關聯起來,是提高搜索結果準確性的重要前提。
此外,在某些大型網站中的資訊資料量巨大,但是資訊資料中包含的查詢詞會遠遠小於資訊資料總量,因此,如果能對查詢詞進行歸一化處理,將表示相同或近似意思的查詢詞關聯,在查詢時視為二者相同或者近似,還可以減少資料的冗餘,提高搜索引擎的回應速度。例如,對於大型商務網站來說,其產品詞會遠遠小於資訊資料總量。
為此,本申請提出一種擴展查詢方法及系統來實現查詢詞的歸一化處理。
參照圖1和圖2,示出本申請的一種擴展查詢方法實施例一,包括以下步驟:
步驟101,獲取用戶輸入的查詢詞。
步驟102,根據該查詢詞確定該查詢詞的歸一化查詢詞。
步驟103,將該歸一化查詢詞作為該查詢詞的擴展詞進行擴展查詢。
其中,步驟102具體包括如下步驟:
步驟1021,獲取用戶搜索日誌中的session資訊。
session資訊是描述一個用戶在一個連續的時間內 (一般短至幾分鐘,長至若干小時)在網站上的一系列行為的資訊。用戶從開始瀏覽網站頁面直到退出瀏覽這個過程中,網站伺服器會自動為這個用戶分配一個session ID,並記錄下這段時間內的用戶行為。當用戶間隔較長時間重新瀏覽網站頁面時,網站伺服器會重新為這個用戶分配一個session ID,並記錄用戶行為。通常情況下,用戶在連續瀏覽的一個時間段內,其行為通常具有一定的關聯性,即可以認為用戶在一個session內的行為是相關聯的,那麼,該session內所記錄的用戶搜索查詢時所使用的查詢詞也會具有一定的關聯性。因此,本申請基於session資訊來對查詢詞進行歸一化處理。
網站伺服器中會有特定的資料庫儲存用戶搜索日誌,包括其中的session資訊。為了減少資料量,可以獲取一定時間段內的用戶搜索日誌,也可以分別獲取不同時間段內的用戶搜索日誌,從而提高資料的客觀性。
步驟1022,獲取單個session內出現的所有查詢詞,統計各查詢詞的投票數,在該單個session內,按照各查詢詞出現的先後順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票。
在一個session內,用戶可能進行多次搜索,那麼session資訊中會包含多個查詢詞,session資訊中會記錄用戶搜索的先後順序,即各查詢詞出現的先後順序。透過session資訊中所記錄的每次查詢時間,即可以確定各查詢詞出現的先後順序。
統計各查詢詞的投票數的具體過程為:按照各查詢詞出現的先後順序對各查詢詞進行排序;各查詢詞的投票數為排列在該查詢詞前面的查詢詞總數。
例如,一個session內共有a,b,c,d,e五個查詢詞,按照出現的先後順序排列為a,b,c,d,e。那麼,根據前述定義,每個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票。即對於查詢詞b來說,其投票數為1,即a到b;對於查詢詞c來說,其投票數為2,分別為a到c和b到c;同理,對於查詢詞e來說,其投票數為4,abcd分別對e有一次投票。亦即,每個查詢詞的投票數都是排在其前面的查詢詞總數。
步驟1023,根據目標查詢詞在所有session內的總投票數以及單個查詢詞對目標查詢詞的投票數確定單個查詢詞和目標查詢詞的投票相似度。
因為在同一時間段內網站內會有多個用戶訪問,那麼則會有多個session。對於其他的session內每個查詢詞的投票數的統計方法如前面步驟1022所述。
目標查詢詞在所有session內的總投票數採用如下方式統計:A1,獲取包含有目標查詢詞的session;A2,統計該目標查詢詞在每個session內的投票數;A3,將該每個session內的投票數累加得到該目標查詢詞的總投票數。
根據前述對投票的定義,每個session內在目標查詢詞前面出現的任何一個查詢詞對目標查詢詞都有一次投票。亦即,每個session內,每一個查詢詞對目標查詢詞最多有一次投票,如果該查詢詞排在目標查詢詞前面,則有一次投票,反之,則沒有投票。因此,當需要確定單個查詢詞對目標查詢詞的投票數時,可以透過確定同時包含有該單個查詢詞和目標查詢詞且該單個查詢詞排在目標查詢詞前面的session的數量即可。具體包括以下步驟:B1,獲取同時包含單個查詢詞和目標查詢詞的session;B2,判斷該session內,該單個查詢詞對目標查詢詞是否有投票,若是,則選取該session;B2,統計所有被選取session的數量,得到該單個查詢詞對目標查詢詞的投票數。
前述獲取包含有目標查詢詞的session或者同時包含有單個查詢詞和目標查詢詞的session可以透過匹配的方式來實現。即,首先確定目標查詢詞和/或單個查詢詞,將確定的詞與session內所包含的所有查詢詞進行匹配查詢,如果能夠匹配,則確定該session包含目標查詢詞或者同時包含單個查詢詞和目標查詢詞。
可以理解,在具體實現時,對於總投票數和單個查詢詞對目標查詢詞的投票數的統計還可以採用其他的方式,只要能夠確定出具體數目即可。例如,可以將每個session內每個查詢詞對目標查詢詞的投票用路徑形式表 示。如果需要統計總投票數,則可以透過統計路徑總數的方式實現。如果需要統計單個查詢詞對目標查詢詞的投票數,則可以按照相同的路徑形式表示,然後與之前統計的所有路徑匹配,如果能夠完全匹配,則累計一票,最後統計所有能夠完全匹配的路徑數量,即為單個查詢詞對目標查詢詞的投票數。
單個查詢詞和目標查詢詞的投票相似度可以直接根據單個查詢詞對目標查詢詞的投票數占目標查詢詞的總投票數的比例來確定,即具體的比例數值為投票相似度值。因為,如果單個查詢詞對目標查詢詞的投票數占該目標查詢詞的總投票數的比例越大,說明從單個查詢詞到目標查詢詞的路徑變化被越多人採用,那麼二者投票相似度也就越大。
單個查詢詞對目標查詢詞的投票在不同session內也可能出現區別,可能是單個查詢詞直接變化到目標查詢詞,也可能是單個查詢詞經過多次變化後到目標查詢詞。例如,一個session內的查詢詞為abc,另一個為ac,在統計時,都會包含a到c的投票,但是一個中間間隔了一個b,而另一個沒有間隔,因此,兩個a到c的投票實際上存在一定的區別。為了更為客觀的統計出單個查詢詞和目標查詢詞的關聯度。
較佳地,採用如下方式:確定對目標查詢詞的每個投票的權重和基數;根據該權重和基數計算每個投票的得分; 將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
在具體計算時,可以採用每個投票的基數乘以權重的方式來計算每個投票的得分,最後將各得分相加得到總得分。例如,假設每個投票基數為1,如果在一個session某個查詢詞直接變化到目標查詢詞,其權重可以設置為1,那麼該投票最終計算結果仍然為1;如果在另一session內該查詢詞經過一個詞之後才變化到目標查詢詞,其權重可以設置為0.9,那麼該投票最終計算結果為0.9。又如,假設將某個查詢詞到目標查詢詞中間所經過的每一次變化記為一個步長,那麼可以透過步長倒數的方式來確定權重。可以理解,對於權重的確定還可以採用其他方式,只要能夠體現出不同投票之間的區別即可。
步驟1024,根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度。
本實施例中,單個查詢詞和目標查詢詞的投票相似度即為二者的關聯。
可以理解,本實施例中在確定關聯度時只考慮投票相似度一個維度,當確定關聯度還需要考慮其他維度時,還可以將投票相似度以及其他維度的數值進行歸一化處理,使之能夠具有相同的量化級,以便於確定出相對準確的關聯度。
步驟1025,根據該單個查詢詞和目標查詢詞的關聯 度確定該目標查詢詞的歸一化查詢詞。
可以預先設定歸一化查詢詞的閾值,即當單個查詢詞和目標查詢詞的關聯度超過該閾值,則可以確定該單個查詢詞為目標查詢詞的歸一化查詢詞。
進一步地,在確定該單個查詢詞為目標查詢詞的歸一化查詢詞後,還可以根據具體的關聯度值進行細化,例如,可以按照關聯度值由大到小細化為同義歸一化查詢詞、相關歸一化查詢詞、擴展歸一化查詢詞等等。可以分別設定各種類別所對應的取值範圍,當關聯度值落入某個取值範圍,則將該取值範圍對應的類別作為歸一化查詢詞的細化類別。例如,單個查詢詞和目標查詢詞的關聯度若在同義歸一化查詢詞對應的取值範圍內,則確定該單個查詢詞為目標查詢詞的同義歸一化查詢詞,若在相關歸一化查詢詞對應的取值範圍內,則確定二者為相關歸一化查詢詞,若在擴展歸一化查詢詞的取值範圍內,則確定二者為擴展歸一化查詢詞。
可以理解,前述方法為透過session內的資訊對查詢詞進行歸一化處理,session可以很好的記錄不同用戶在一次查詢過程中查詢詞的變化路徑,從而客觀的對用戶行為進行分析,來得到較為客觀準確的歸一化處理結果。
為了更好的對查詢詞進行歸一化處理,除了考慮session內的資訊,還可以從其他維度來進行分析,並結合透過session內的資訊得出的結果,綜合得出歸一化處理結果,從而提高處理結果的客觀性。例如,對用戶的點 擊行為進行分析,或者從系統中儲存的查詢詞的描述資訊來進行分析等等。
參照圖3,示出本申請的擴展查詢方法實施例二,對於前述實施例一的步驟102,在實施例一中的步驟1024之前包括以下步驟:
步驟201,獲取用戶搜索日誌中搜索結果的點擊資訊。
用戶在用某個查詢詞進行搜索得到搜索結果集合後,通常會對搜索結果集合中的某些搜索結果進行點擊。搜索結果的點擊資訊包括哪些搜索結果被點擊、以及被點擊的搜索結果的標題、描述資訊等等。
步驟202,根據該點擊資訊中提取包含有目標查詢詞的搜索結果。
搜索結果中會包含有一個查詢詞,來表示該結果中主要是售賣何種產品。因此,透過對點擊資訊中每個搜索結果的標題和描述資訊進行分析,就可以確定每個搜索結果的查詢詞。然後根據實際需要,提取目標查詢詞。例如,用戶用“手機”這一查詢詞進行搜索得到一系列的搜索結果,各搜索結果的查詢詞可以是“iphone”、“三星手機”“諾基亞手機”等等。如果將“iphone”作為目標查詢詞,則可以將所有的包含有“iphone”的搜索結果提取出來。
步驟203,根據所有包含有目標查詢詞的搜索結果被點擊的總次數以及單個查詢詞所對應的包含有目標查詢詞 的搜索結果被點擊的次數確定單個查詢詞和目標查詢詞的點擊相似度。
單個查詢詞所對應的包含有目標查詢詞的搜索結果被點擊的次數是指,用某個查詢詞進行查詢後得到的搜索結果集合中,包含有目標查詢詞的搜索結果被點擊的次數。
所有包含有目標查詢詞的搜索結果被點擊的總次數是指所有單個查詢詞所對應的包含有目標查詢詞的搜索結果被點擊的次數的總和。
例如,假設目標查詢詞為“iphone”,在查詢時分別用“手機”和“智慧手機”作為查詢詞進行了查詢。其中,用“手機”這一查詢詞進行查詢後得到一個搜索結果集合,其中包含有“iphone”的搜索結果被點擊的次數為5次,那麼單個查詢詞“手機”所對應的包含有目標查詢詞“iphone”的搜索結果被點擊的次數為5次。另外,用“智慧手機”這一查詢詞進行查詢後得到另一個搜索結果集合,其中包含有“iphone”的搜索結果被點擊的次數為20次,那麼單個查詢詞“智慧手機”所對應的包含有目標查詢詞“iphone”的搜索結果被點擊的次數為20次。所有包含有目標查詢詞“iphone”的搜索結果被點擊的總次數即為二者之和25。
所有包含有目標查詢詞的搜索結果被點擊的總次數以及單個查詢詞所對應的包含有目標查詢詞的搜索結果被點擊的次數的處理可以採用如下方式進行:計算單個查詢詞所對應的包含有目標查詢詞的搜索結果被點擊的次數占所 有包含有目標查詢詞的搜索結果被點擊的總次數的比例。
因為本實施例中考慮了兩個維度,因此,確定單個查詢詞和目標查詢詞的關聯度需要考慮兩個維度下的相似度值。為此,實施例一的步驟1024需要對應修改為:根據該投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關聯度。
具體可以採用如下方式:選取投票相似度和點擊相似度中數值較大的作為單個查詢詞和目標查詢詞的關聯度。
可以理解,還可以採用如下方式:確定投票相似度和點擊相似度的權重;根據該投票相似度和點擊相似度和各自的權重按照預定規則計算得到單個查詢詞和目標查詢詞的關聯度。
參照圖4,示出本申請的擴展查詢方法實施例三,對於前述實施例一和/或實施例二的步驟102,在步驟1024之前包括以下步驟:
步驟301,獲取伺服器中儲存的賣家資料,該賣家資料為賣家對產品進行描述時所確定的產品描述資訊。
步驟302,解析該賣家資料,提取其中的查詢詞以及查詢詞的特徵詞。
查詢詞的特徵詞是指對查詢詞進行特徵描述的詞。
步驟303,根據單個查詢詞和目標查詢詞的特徵詞確定特徵相似度。
其中,特徵相似度可以根據如下方式確定: 確定每個特徵詞的特徵值;根據特徵值計算單個查詢詞和目標查詢詞的特徵相似度。
每個特徵詞的特徵值可以根據該特徵詞以及對應的查詢詞的點互資訊計算得到,具體計算公式如下:
CP表示查詢詞、Word表示描述詞。P(CP)和P(Word)分別表示這兩個詞在資料集中單獨出現的機率,P(CP & Word)表示它們在資料集中共同出現的機率;C(CP)和C(Word)分別表示它們在資料集中單獨出現的資訊數,C(CP & Word)表示它們在資料集中共同出現的資訊數,N為資料集中的資訊總數。
根據特徵值計算單個查詢詞和目標查詢詞的特徵相似度為計算單個查詢詞和目標查詢詞各個維度的特徵詞的相似度從而得到特徵相似度。具體可以採用餘弦相似度來進行,最後所得的值越大,則說明二者相似度越高。
如前所述,因為增加了賣家資料作為新的維度,在確定單個查詢詞和目標查詢詞的關聯度需要考慮增加的維度。
可以理解,新的維度可以直接和實施例一結合,也可以和實施例二結合,即可以考慮兩個維度,也可以考慮三個維度。當新的維度與實施例一結合時,實施例一中的步 驟1024在本實施例中需要對應修改為:根據該投票相似度和特徵相似度確定單個查詢詞和目標查詢詞的關聯度。
當三個維度結合時,實施例一中的步驟1024在本實施例中則需要對應修改為:根據該投票相似度、點擊相似度和特徵相似度確定單個查詢詞和目標查詢詞的關聯度。
具體在確定單個查詢詞和目標查詢詞的關聯度時,可以參照實施例二中相類似的方法。例如,可以選取相似度值較大的作為關聯度,也可以分別確定各相似度的權重,然後採用線性擬合等預定方式進行計算,在此不再贅述。
較佳地,在進行歸一化處理過程中,除了考慮關聯度,還可以考慮其他因素,從而使處理結果更為準確。例如,還可以考慮單個查詢詞和目標查詢詞的語義相似度,或者單個查詢詞和目標查詢詞的類目相似度等等。
為此,在實施例一和/或實施例二和/或實施例三的步驟1025之前還包括以下步驟:確定單個查詢詞和目標查詢詞的語義相似度。
其中,單個查詢詞和目標查詢詞的語義相似度根據二者的編輯距離確定。編輯距離(Edit Distance),是指兩個字串(查詢詞)之間,由一個轉成另一個所需的最少編輯操作次數。Levenshtein距離是最為常見的編輯距離,Levenshtein的編輯操作包括將一個字元替換成另一個字元,插入一個字元,刪除一個字元,可以透過動態規劃的 方法計算兩個字串的編輯距離。在計算出編輯距離之後,對編輯距離進行歸一化處理得到語義相似度,使語義相似度能夠與關聯度具有相同的量化級別,從而便於後續處理。
為此,在實施例一和/或實施例二和/或實施例三的步驟1025之前還包括以下步驟:確定單個查詢詞和目標查詢詞的類目相似度。
電子商務網站中,為了便於對產品進行區分管理,會預先設定類目,每個查詢詞都有其所屬的類目。一般來說類目會有多層劃分,即同一大類目下可能包含多個小類目,每個小類目又分多個子類目等等。類目相似度可以根據是否屬於相同大類目、小類目、子類目等來進行確定。同樣的,在確定過程中需要對類目相似度進行歸一化處理,使之與關聯度具有相同的量化級別。
因為考慮了新的因素,在前述三個實施例中的步驟1025則需要對應修改。
若考慮的是關聯度和語義相似度,則步驟1025修改為:根據該單個查詢詞和目標查詢詞的關聯度和語義相似度確定該目標查詢詞的歸一化查詢詞。
若考慮的是關聯度和類目相似度,則步驟1025修改為:根據該單個查詢詞和目標查詢詞的關聯度和類目相似度確定該目標查詢詞的歸一化查詢詞。
若同時考慮三者,則步驟1025修改為:根據該單個查詢詞和目標查詢詞的關聯度、語義相似度和類目相似度確定該目標查詢詞的歸一化查詢詞。
具體處理時,可以對二者或者三者進行線性擬合,得到單個查詢詞和目標查詢詞的歸一化分數,然後根據歸一化分數來確定目標查詢詞的歸一化查詢詞。
例如,可以參照實施例一中設定閾值的方式來實現。即預先設定歸一化查詢詞的閾值,若歸一化分數超過該閾值,則確定單個查詢詞為目標查詢詞的歸一化查詢詞。也可以對歸一化查詢詞進行細化,即分別設定不同的取值範圍對應不同的類別,當歸一化分數落入某個取值範圍,則將該取值範圍對應的類別作為歸一化查詢詞的細化類別。具體的可以參照實施例一中細化方式,在此不再贅述。
可以理解,本申請前述的多個實施例中,對於在某個實施例的某個特定步驟之前添加的步驟,因為添加的步驟與特定步驟之前的步驟相互獨立,所以可以直接在該特定步驟前一步進行,也可以與該特徵步驟之前的步驟同步或者之前進行,本申請對此並不限制。例如,對於實施例二中所添加的步驟201至203,可以在步驟1023和步驟1024之間,也可以與步驟1021至1023同步進行或者在步驟1021之前,本申請對此並不限制。其他實施例也類似處理,在此不再贅述。
參照圖5,示出本申請的擴展查詢系統實施例一,包括查詢詞輸入模組10、歸一化查詢詞確定模組20和擴展 查詢模組30。
參照圖6,其中,歸一化查詢詞確定模組20包括session資訊獲取模組21、查詢詞投票數統計模組22、投票相似度確定模組23、關聯度確定模組24和歸一化查詢詞確定模組25。
session資訊獲取模組21,用於獲取用戶搜索日誌中的session資訊。
查詢詞投票數統計模組22,用於獲取單個session內出現的所有查詢詞,統計各查詢詞的投票數,在該單個session內,按照各查詢詞出現的先後順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票。
投票相似度確定模組23,用於根據目標查詢詞在所有session內的總投票數以及單個查詢詞對目標查詢詞的投票數確定單個查詢詞和目標查詢詞的投票相似度。較佳地,投票相似度確定模組包括基數和權重確定單元、分計算單元和比例計算單元。基數和權重確定單元,用於確定對目標查詢詞的每個投票的權重和基數。得分計算單元,用於根據該權重和基數計算每個投票的得分。比例計算單元,用於將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
關聯度確定模組24,用於根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度。
歸一化查詢詞確定模組25,用於根據該單個查詢詞 和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞。較佳地,歸一化查詢詞確定模組包括歸一化查詢詞閾值設定單元,用於設定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關聯度值超過該歸一化產品閾值,則確定該單個查詢詞為目標查詢詞的歸一化查詢詞。可以理解,歸一化查詢詞確定模組還包括歸一化查詢詞類別區分單元、取值範圍設定單元和類別確定單元。歸一化查詢詞類別區分單元,用於將歸一化查詢詞類別分為同義歸一化查詢詞、相關歸一化查詢詞和擴展歸一化查詢詞三個類別。取值範圍設定單元,用於按照關聯度值由大到小設定該三個類別的取值範圍。類別確定單元,用於將該單個查詢詞和目標查詢詞的關聯度所屬的取值範圍對應的類別作為該單個查詢詞和目標查詢詞的細化類別。
參照圖7,示出本申請的擴展查詢系統實施例二,該系統中,歸一化查詢詞確定模組20還包括點擊資訊獲取模組61、搜索結果提取模組63和點擊相似度確定模組65。
點擊資訊獲取模組61,用於獲取用戶搜索日誌中搜索結果的點擊資訊。
搜索結果提取模組63,用於根據該點擊資訊中提取包含有目標查詢詞的搜索結果。
點擊相似度確定模組65,根據所有包含有目標查詢詞的搜索結果被點擊的總次數以及單個查詢詞所對應的包含有目標查詢詞的搜索結果被點擊的次數確定單個查詢詞 和目標查詢詞的點擊相似度。
相應地,關聯度確定模組40用於根據該投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關聯度。
參照圖8,示出本申請的擴展查詢系統實施例三,該系統中,歸一化查詢詞確定模組20還包括賣家資料獲取模組81、資料解析模組83和特徵相似度確定模組85。
賣家資料獲取模組81,用於獲取伺服器中儲存的賣家資料,該賣家資料為賣家對產品進行描述時所確定的產品描述資訊。
資料解析模組83,用於解析該賣家資料,提取其中的查詢詞以及查詢詞的特徵詞。
特徵相似度確定模組85,用於根據單個查詢詞和目標查詢詞的特徵詞確定特徵相似度。優選地,特徵相似度確定模組包括特徵值計算單元,用於計算每個特徵詞的特徵值,該特徵值根據特徵詞及對應的查詢詞的點互資訊計算得到,並根據特徵值計算單個查詢詞和目標查詢詞的特徵相似度。
對應的,關聯度確定模組24用於根據該投票相似度和特徵相似度確定單個查詢詞和目標查詢詞的關聯度。
可以理解,在實際處理時,還可以同時考慮實施例二和實施例三中所描述的相關資料來進行處理。即關聯度確定模組24還可以根據投票相似度、點擊相似度和特徵相似度三者共同確定單個查詢詞和目標查詢詞的關聯度。具體在確定關聯度時,可以採用從三者中選取數值最大的作 為關聯度,也可以對三者進行線性擬合得到一個最終值作為關聯度。
可以理解,對於前述採用投票相似度與點擊相似度二者結合或者與特徵相似度二者結合時,也可以從二者中選取數值最大的作為關聯度,還可以對二者進行線性擬合得到一個最終值作為關聯度。
較佳地,該系統還包括語義相似度確定模組和/或類目相似度確定模組,用於確定單個查詢詞和目標查詢詞的語義相似度和/或類目相似度。
對應地,歸一化查詢詞確定模組25則用於根據該單個查詢詞和目標查詢詞的關聯度和語義相似度確定該目標查詢詞的歸一化查詢詞;或根據該單個查詢詞和目標查詢詞的關聯度和類目相似度確定該目標查詢詞的歸一化查詢詞;或根據該單個查詢詞和目標查詢詞的關聯度、語義相似度和類目相似度確定該目標查詢詞的歸一化查詢詞。
較佳地,語義相似度確定模組包括編輯距離計算單元和歸一化處理單元。編輯距離計算單元,用於確定單個查詢詞和目標查詢詞的編輯距離,該編輯距離指二者之間由一個詞轉化為另一詞所需的最少編輯操作次數。歸一化處理單元,用於對該編輯距離進行歸一化處理得到與關聯度具有相同量化級的語義相似度。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對於系統實施 例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上對本申請所提供的擴展查詢方法及系統進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
10‧‧‧查詢詞輸入模組
20‧‧‧歸一化查詢詞確定模組
30‧‧‧擴展查詢模組
21‧‧‧session資訊獲取模組
22‧‧‧產品詞投票數統計模組
23‧‧‧投票相似度確定模組
24‧‧‧關聯度確定模組
25‧‧‧歸一化產品詞確定模組
61‧‧‧點擊資訊獲取模組
63‧‧‧搜索結果提取模組
65‧‧‧點擊相似度確定模組
81‧‧‧賣家資料獲取模組
83‧‧‧資料解析模組
85‧‧‧特徵相似度確定模組
圖1是本申請的擴展查詢方法實施例一的流程圖;圖2是本申請的擴展查詢方法中確定查詢詞的歸一化查詢詞的實施例一的流程圖;圖3是本申請的擴展查詢方法中確定查詢詞的歸一化查詢詞的實施例二的流程圖;圖4是本申請的擴展查詢方法中確定查詢詞的歸一化查詢詞的實施例三的流程圖;圖5是本申請的擴展查詢系統實施例一的結構示意圖;圖6是本申請的擴展查詢系統中的歸一化查詢詞模組的實施例一的結構示意圖;圖7是本申請的擴展查詢系統中的歸一化查詢詞模組的實施例二的結構示意圖; 圖8是本申請的擴展查詢系統中的歸一化查詢詞模組的實施例三的結構示意圖。

Claims (15)

  1. 一種擴展查詢方法,其特徵在於,包括以下步驟:獲取用戶輸入的查詢詞;根據該查詢詞確定該查詢詞的歸一化查詢詞;及將該歸一化查詢詞作為該查詢詞的擴展詞進行擴展查詢;其中,該查詢詞的歸一化查詢詞採用如下方式確定:獲取用戶搜索日誌中的session資訊;獲取單個session內出現的所有查詢詞,統計各查詢詞的投票數,在該單個session內,按照各查詢詞出現的先後順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票;根據目標查詢詞在所有session內的總投票數以及單個查詢詞對目標查詢詞的投票數確定單個查詢詞和目標查詢詞的投票相似度;根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度;及根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞。
  2. 如申請專利範圍第1項所述的擴展查詢方法,其中,該目標查詢詞在所有session內的總投票數採用如下方式統計:獲取包含有目標查詢詞的session; 統計該目標查詢詞在每個session內的投票數;將該每個session內的投票數累加得到該目標查詢詞的總投票數。
  3. 如申請專利範圍第1項所述的擴展查詢方法,其中,該單個查詢詞對目標查詢詞的投票數採用如下方式統計:獲取同時包含單個查詢詞和目標查詢詞的session;判斷該session內,該單個查詢詞對目標查詢詞是否有投票,若是,則選取該session;統計所有被選取session的數量,得到該單個查詢詞對目標查詢詞的投票數。
  4. 如申請專利範圍第1項所述的擴展查詢方法,其中,該確定單個查詢詞和目標查詢詞的投票相似度包括:將該單個產品對單個查詢詞對目標查詢詞的投票數占目標查詢詞的總投票數的比例作為該單個查詢詞和目標查詢詞的投票相似度。
  5. 如申請專利範圍第1項所述的擴展查詢方法,其中,該確定單個查詢詞和目標查詢詞的投票相似度包括:確定對目標查詢詞的每個投票的權重和基數;根據該權重和基數計算每個投票的得分;將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
  6. 如申請專利範圍第1項所述的擴展查詢方法,其 中,該根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞包括:設定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關聯度值超過該歸一化產品閾值,則確定該單個查詢詞為目標查詢詞的歸一化查詢詞。
  7. 如申請專利範圍第6項所述的擴展查詢方法,其中,該根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞包括:將歸一化查詢詞類別分為同義歸一化查詢詞、相關歸一化查詢詞和擴展歸一化查詢詞三個類別;按照關聯度值由大到小設定該三個類別各自的取值範圍;將該單個查詢詞和目標查詢詞的關聯度所屬的取值範圍對應的類別作為該單個查詢詞和目標查詢詞的細化類別。
  8. 如申請專利範圍第1項所述的擴展查詢方法,其中,該方法在根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度之前還包括:獲取用戶搜索日誌中搜索結果的點擊資訊;根據該點擊資訊中提取包含有目標查詢詞的搜索結果;根據所有包含有目標查詢詞的搜索結果被點擊的總次數以及單個查詢詞所對應的包含有目標查詢詞的搜索結果被點擊的次數確定單個查詢詞和目標查詢詞的點擊相似 度;該確定單個查詢詞和目標查詢詞的關聯度包括:根據該投票相似度和點擊相似度確定單個查詢詞和目標查詢詞的關聯度。
  9. 如申請專利範圍第1項所述的擴展查詢方法,其中,在根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度之前還包括:獲取伺服器中儲存的賣家資料,該賣家資料為賣家對產品進行描述時所確定的產品描述資訊;解析該賣家資料,提取其中的查詢詞以及查詢詞的特徵詞;根據單個查詢詞和目標查詢詞的特徵詞確定特徵相似度;該根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度包括:根據該投票相似度和特徵相似度確定單個查詢詞和目標查詢詞的關聯度。
  10. 如申請專利範圍第1至9項之任一項所述的擴展查詢方法,其中,該根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞之前還包括:確定單個查詢詞和目標查詢詞的語義相似度和/或類目相似度;該根據該單個查詢詞和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞包括:根據該單個查詢詞和目標查詢詞的關聯度和語義相 似度確定該目標查詢詞的歸一化查詢詞;或根據該單個查詢詞和目標查詢詞的關聯度和類目相似度確定該目標查詢詞的歸一化查詢詞;或根據該單個查詢詞和目標查詢詞的關聯度、語義相似度和類目相似度確定該目標查詢詞的歸一化查詢詞。
  11. 一種擴展查詢系統,其特徵在於,包括:查詢詞輸入模組,用於獲取用戶輸入的查詢詞;歸一化查詢詞確定模組,用於根據該查詢詞確定該查詢詞的歸一化查詢詞;及擴展查詢模組,用於將該歸一化查詢詞作為該查詢詞的擴展詞進行擴展查詢;其中,該歸一化查詢詞確定模組包括:session資訊獲取模組,用於獲取用戶搜索日誌中的session資訊;查詢詞投票數統計模組,用於獲取單個session內出現的所有查詢詞,統計各查詢詞的投票數,在該單個session內,按照各查詢詞出現的先後順序,某個查詢詞之前的任何一個查詢詞到該查詢詞都記為一次投票;投票相似度確定模組,用於根據目標查詢詞在所有session內的總投票數以及單個查詢詞對目標查詢詞的投票數確定單個查詢詞和目標查詢詞的投票相似度;關聯度確定模組,用於根據該投票相似度確定單個查詢詞和目標查詢詞的關聯度;及歸一化查詢詞確定模組,用於根據該單個查詢詞 和目標查詢詞的關聯度確定該目標查詢詞的歸一化查詢詞。
  12. 如申請專利範圍第11項所述的擴展查詢系統,其中,該投票相似度確定模組包括:基數和權重確定單元,用於確定對目標查詢詞的每個投票的權重和基數;得分計算單元,用於根據該權重和基數計算每個投票的得分;比例計算單元,用於將單個查詢詞對目標查詢詞的投票總得分占所有查詢詞對目標查詢詞的投票總得分的比例作為單個查詢詞和目標查詢詞的投票相似度。
  13. 如申請專利範圍第11項所述的擴展查詢系統,其中,該歸一化查詢詞確定模組包括:歸一化查詢詞閾值設定單元,用於設定歸一化查詢詞閾值,若單個查詢詞和目標查詢詞的關聯度值超過該歸一化產品閾值,則確定該單個查詢詞為目標查詢詞的歸一化查詢詞。
  14. 如申請專利範圍第13項所述的擴展查詢系統,其中,該歸一化查詢詞確定模組還包括:歸一化查詢詞類別區分單元,用於將歸一化查詢詞類別分為同義歸一化查詢詞、相關歸一化查詢詞和擴展歸一化查詢詞三個類別;取值範圍設定單元,用於按照關聯度值由大到小設定該三個類別的取值範圍; 類別確定單元,用於將該單個查詢詞和目標查詢詞的關聯度所屬的取值範圍對應的類別作為該單個查詢詞和目標查詢詞的細化類別。
  15. 如申請專利範圍第11項所述的擴展查詢系統,其中,該歸一化查詢詞確定模組還包括:賣家資料獲取模組,用於獲取伺服器中儲存的賣家資料,該賣家資料為賣家對產品進行描述時所確定的產品描述資訊;資料解析模組,用於解析該賣家資料,提取其中的查詢詞以及查詢詞的特徵詞;特徵相似度確定模組,用於根據單個查詢詞和目標查詢詞的特徵詞確定特徵相似度;該關聯度確定模組用於根據該投票相似度和特徵相似度確定單個查詢詞和目標查詢詞的關聯度。
TW101142223A 2012-07-20 2012-11-13 Extended query method and system TWI544351B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210254810.0A CN103577416B (zh) 2012-07-20 2012-07-20 扩展查询方法及系统

Publications (2)

Publication Number Publication Date
TW201405342A TW201405342A (zh) 2014-02-01
TWI544351B true TWI544351B (zh) 2016-08-01

Family

ID=48916206

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101142223A TWI544351B (zh) 2012-07-20 2012-11-13 Extended query method and system

Country Status (6)

Country Link
US (1) US9317550B2 (zh)
JP (1) JP6247292B2 (zh)
KR (1) KR102080362B1 (zh)
CN (1) CN103577416B (zh)
TW (1) TWI544351B (zh)
WO (1) WO2014015176A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8756241B1 (en) * 2012-08-06 2014-06-17 Google Inc. Determining rewrite similarity scores
US11461319B2 (en) * 2014-10-06 2022-10-04 Business Objects Software, Ltd. Dynamic database query efficiency improvement
CN104346480B (zh) * 2014-11-27 2018-06-26 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
KR101612635B1 (ko) * 2014-12-12 2016-04-14 경희대학교 산학협력단 외부 리소스를 이용하여 증거 적응을 위한 임상의사결정지원 시스템 및 방법
US9824385B2 (en) 2014-12-29 2017-11-21 Ebay Inc. Method for performing sequence labelling on queries
CN104615680B (zh) 2015-01-21 2016-11-02 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
CN104715022B (zh) * 2015-02-28 2018-07-31 北京奇艺世纪科技有限公司 一种相关搜索方法和装置
CN104933183B (zh) * 2015-07-03 2018-02-06 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN105260084A (zh) * 2015-11-03 2016-01-20 百度在线网络技术(北京)有限公司 输入序列的处理方法及装置
TWI567577B (zh) * 2015-11-05 2017-01-21 英業達股份有限公司 解決方案搜尋系統之操作方法及解決方案搜尋系統
US10339135B2 (en) 2015-11-06 2019-07-02 International Business Machines Corporation Query handling in search systems
US10762583B2 (en) * 2016-03-10 2020-09-01 Microsoft Technology Licensing, Llc Generating content feeds based on expanded network engagement
JP6856466B2 (ja) * 2017-07-14 2021-04-07 ヤフー株式会社 情報処理システム、情報処理方法、およびプログラム
US10878473B1 (en) * 2017-11-16 2020-12-29 Amazon Technologies, Inc. Content modification
CN107885875B (zh) * 2017-11-28 2022-07-08 北京百度网讯科技有限公司 检索词的同义变换方法、装置及服务器
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN109493166B (zh) * 2018-10-23 2021-12-28 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话系统的构建方法
CN112115335B (zh) * 2019-06-20 2024-05-28 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN110674087A (zh) * 2019-09-03 2020-01-10 平安科技(深圳)有限公司 文件查询方法、装置及计算机可读存储介质
US11249996B2 (en) 2020-01-03 2022-02-15 International Business Machines Corporation Query adaptation for a search service in a content management system
US11188512B2 (en) 2020-01-03 2021-11-30 International Business Machines Corporation Rewriting corpus content in a search index and processing search queries using the rewritten search index

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7287025B2 (en) 2003-02-12 2007-10-23 Microsoft Corporation Systems and methods for query expansion
US20050149499A1 (en) 2003-12-30 2005-07-07 Google Inc., A Delaware Corporation Systems and methods for improving search quality
US7565345B2 (en) * 2005-03-29 2009-07-21 Google Inc. Integration of multiple query revision models
US8438142B2 (en) * 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
KR100544514B1 (ko) * 2005-06-27 2006-01-24 엔에이치엔(주) 검색 쿼리 연관성 판단 방법 및 시스템
US7552112B2 (en) * 2006-09-18 2009-06-23 Yahoo! Inc. Discovering associative intent queries from search web logs
US7689548B2 (en) 2006-09-22 2010-03-30 Microsoft Corporation Recommending keywords based on bidding patterns
US8321448B2 (en) 2007-02-22 2012-11-27 Microsoft Corporation Click-through log mining
US8145660B2 (en) * 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
KR100893129B1 (ko) 2007-10-24 2009-04-15 엔에이치엔(주) 멀티 미디어 컨텐츠의 추천 키워드 추출 시스템 및 그 방법
TWI393018B (zh) 2009-02-06 2013-04-11 Inst Information Industry 關鍵詞彙即時擴展方法與系統以及儲存關鍵詞彙即時擴展程式的電腦可讀寫記錄媒體
US20110145226A1 (en) 2009-12-10 2011-06-16 Microsoft Corporation Product similarity measure
US20110258212A1 (en) * 2010-04-14 2011-10-20 Microsoft Corporation Automatic query suggestion generation using sub-queries
US20120010996A1 (en) 2010-07-07 2012-01-12 Microsoft Corporation Recommendations and targeted advertising based upon directions requests activity and data
WO2012040872A1 (en) 2010-09-29 2012-04-05 Yahoo! Inc. Training search query intent classifier using wiki article titles and search click log
JP5426526B2 (ja) * 2010-12-21 2014-02-26 日本電信電話株式会社 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム
CN102567408B (zh) 2010-12-31 2014-06-04 阿里巴巴集团控股有限公司 推荐搜索关键词的方法和装置

Also Published As

Publication number Publication date
US20140025701A1 (en) 2014-01-23
CN103577416A (zh) 2014-02-12
KR20150036117A (ko) 2015-04-07
TW201405342A (zh) 2014-02-01
CN103577416B (zh) 2017-09-22
KR102080362B1 (ko) 2020-02-21
WO2014015176A1 (en) 2014-01-23
US9317550B2 (en) 2016-04-19
JP2015526809A (ja) 2015-09-10
JP6247292B2 (ja) 2017-12-13

Similar Documents

Publication Publication Date Title
TWI544351B (zh) Extended query method and system
CN107729336B (zh) 数据处理方法、设备及系统
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
CN110019658B (zh) 检索项的生成方法及相关装置
CN100570611C (zh) 一种基于观点检索的信息检索文档的评分方法
US8346792B1 (en) Query generation using structural similarity between documents
US8694511B1 (en) Modifying search result ranking based on populations
JP6355840B2 (ja) ストップワード識別方法および装置
CN102880623B (zh) 同名人物搜索方法及系统
RU2008137078A (ru) Способ и система для определения релевантных источников, запрошенных и объединенных результатов от множества источников
CN103294681B (zh) 一种搜索结果的生成方法和装置
TWI547815B (zh) Information retrieval method and device
JP2012533818A (ja) 単語の重みに基づいた検索結果の順位付け
JP2013506189A (ja) クエリの一般属性に基づく情報の検索
JP2009151760A (ja) オブジェクト間競合指標計算方法およびシステム
US20130006975A1 (en) System and method for matching entities and synonym group organizer used therein
US20150120720A1 (en) Method and system of identifying relevant content snippets that include additional information
WO2021082123A1 (zh) 信息推荐方法及装置、电子设备
WO2017113592A1 (zh) 模型生成方法、词语赋权方法、装置、设备及计算机存储介质
CN116450772A (zh) 一种检索结果智能推荐方法、装置及统一检索方法
CN108509449B (zh) 一种信息处理的方法及服务器
TWI446191B (zh) Word matching and information query method and device
CN103092838B (zh) 一种获取英文词的方法及装置
CN105512270B (zh) 一种确定相关对象的方法和装置
TWI483129B (zh) Retrieval method and device

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees