TWI474197B - Information retrieval methods and systems - Google Patents

Information retrieval methods and systems Download PDF

Info

Publication number
TWI474197B
TWI474197B TW99106781A TW99106781A TWI474197B TW I474197 B TWI474197 B TW I474197B TW 99106781 A TW99106781 A TW 99106781A TW 99106781 A TW99106781 A TW 99106781A TW I474197 B TWI474197 B TW I474197B
Authority
TW
Taiwan
Prior art keywords
semantic
mode
query
semantic mode
queries
Prior art date
Application number
TW99106781A
Other languages
English (en)
Other versions
TW201131394A (en
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to TW99106781A priority Critical patent/TWI474197B/zh
Publication of TW201131394A publication Critical patent/TW201131394A/zh
Application granted granted Critical
Publication of TWI474197B publication Critical patent/TWI474197B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

資訊檢索方法和系統
本發明係關於網路技術領域,更具體地說,關於一種資訊檢索方法和系統。
從網際網路出現至今,信息量可以說成冪指數的增長,在這浩如煙海的資訊中怎麼才能找到自己所需要的資訊?搜索引擎就像一隻神奇的手,從雜亂的資訊中抽出一條清晰的檢索路徑。搜索引擎是根據一定的策略、運用特定的電腦程式搜集資訊,在對資訊進行組織和處理後,為用戶提供檢索服務的系統。其通過分析用戶的查詢(Query)請求(關鍵字或關鍵字組),從系統中返回相應的結果並回饋給用戶,為用戶的資訊獲取工作提供了方便。
經過多年的發展和摸索,搜索引擎技術得到了很大的發展,具體表現在搜索結果的相關性提升和索引資料量增加方面,所謂搜索相關性,指的是搜索結果與用戶要求的切合程度。現有技術針對Query的相關工作,大部分還停留在Query分類層次,比較流行的是針對Query所在領域類別的分類,判斷一個Query屬於財經類、體育類或汽車類等,如將“邁克爾 喬丹”歸類為體育類,“奧巴馬”歸類為新聞類。
但是,對於Query的領域分類,其主要功能是在各垂直搜索引擎之間提供導航,這種分類方法過於簡單,無法正確體現用戶意圖。例如,針對Query:“手機 電池”,現有技術能確定出屬於IT領域,但是並不能分析出用戶意圖是查找“手機”還是“電池”,搜索相關性較低。
有鑒於此,本發明提供一種資訊檢索方法和系統,以解決現有技術存在的搜索相關性低的問題。
本發明提供的一種資訊檢索方法包括:預處理步驟,包括:確定歷史查詢記錄中的出現的各查詢片語的語義標籤,根據語義標籤統計語義模式,從統計結果中選擇出現頻率超過預定門限的語義模式;通過統計歷史記錄中各語義模式對應的用戶行為,設置體現該用戶行為的用戶查詢意圖屬性,設置所述語義模式與該用戶查詢意圖屬性所指定的過濾方式和排序方式的對應關係;檢索步驟,包括:接收查詢片語,進行語義分析確定其所屬語義標籤;依據所述對應關係,確定與所述查詢片語所屬語義模式對應的過濾方式和排序方式;利用所述過濾方式和排序方式對搜索結果進行處理。
最好,在確定高頻語義模式後,還包括:依據覆蓋率對語義模式進行篩選,篩選過程包括:計算預定時間段內符合語義模式的查詢片語的數量,將該查詢數量與總查詢數量的比例確定為該語義模式的覆蓋率;提取覆蓋率大於預定門限的語義模式。
最好,在確定高頻語義模式後,還包括:依據區分度對語義模式進行篩選,篩選過程包括:計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,將其確定為所述語義模式的區分度;提取熵大於預定值的語義模式。
最好,在確定高頻語義模式後,還包括:依據覆蓋率和區分度對語義模式進行篩選,篩選過程包括:計算預定時間段內符合該語義模式的查詢次數,將該查詢次數與總查詢次數的比例確定為該語義模式的覆蓋率;計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,將其確定為所述語義模式的區分度;提取覆蓋率大於預定門限及熵大於預定值的語義模式。
本發明提供的一種資訊檢索方法,還包括:接收查詢片語,到預先設置的語義標籤庫中匹配相應的語義標籤;根據匹配到的所述語義標籤到語義模式表中匹配獲得所述查詢片語的語義模式;根據所述語義模式到按照用戶查詢意圖屬性預設的語義模式與過濾、排序方式的對應關係表中匹配獲得所述查詢片語對應的過濾方式和排序方式;利用所述過濾方式和排序方式對所述查詢片語的搜索結果進行處理。
本發明同時公開的一種資訊檢索系統包括:參考資訊儲存單元,用於儲存語義模式與過濾方式和排序方式的對應關係,所述語義模式為歷史查詢記錄中的出現的各查詢片語的語義模式中出現頻率超過預定門限的語義模式,所述過濾方式和排序方式為用戶查詢意圖屬性所指定,所述用戶查詢意圖屬性是通過統計歷史記錄中各語義模式對應的用戶行為設定的;接收單元,用於接收查詢片語;語義模式匹配單元,用於將所述接收單元接收到的查詢片語進行語義分析確定其語義標籤;處理方式確定單元,用於依據所述參考資訊儲存單元中儲存的資訊,確定所述查詢片語所屬語義模式及其對應的過濾方式和排序方式;執行單元,用於利用所述過濾方式和排序方式對搜索結果進行處理。
最好,上述系統還包括:第一篩選單元,用於:計算預定時間段內符合語義模式的查詢片語的數量,將該查詢數量與總查詢數量的比例確定為該語義模式的覆蓋率,並提取覆蓋率大於預定門限的語義模式;所述參考資訊儲存單元儲存的語義模式為:出現頻率超過預定門限且覆蓋率大於預定門限的語義模式。
最好,上述系統還包括:第二篩選單元,用於:計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,將其確定為所述語義模式的區分度,並提取熵大於預定值的語義模式;所述參考資訊儲存單元儲存的語義模式為:出現頻率超過預定門限且熵大於預定值的語義模式。
最好,上述系統還包括:第三篩選單元,用於:計算預定時間段內符合語義模式的查詢片語的數量,將該查詢數量與總查詢數量的比例確定為該語義模式的覆蓋率,以及計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,並提取出現頻率超過預定門限、覆蓋率大於預定門限且熵大於預定值的語義模式;所述參考資訊儲存單元儲存的語義模式為:出現頻率超過預定門限、覆蓋率大於預定門限且熵大於預定值的語義模式。
從上述的技術方案可以看出,本發明實施例根據自然語言特點及用戶的習慣用法,設置語義模式,並根據用戶意圖,將語義模式與通過統計分析語義模式所對應的用戶行為所獲得的過濾方式和排序方式建立對應關係。從而使得,在接收到用戶輸入的查詢片語時,可在確定與該查詢片語匹配的語義模式後,按照對應的過濾方式和排序方式進行搜索和處理,一方面無需檢索全部資料,減少工作量,另一方面利用歷史經驗對用戶意圖進行了分析,提高了用戶意圖與搜索結果的相關度,提高搜索精度。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
本發明實施例公開了一種資訊檢索方法,通過統計歷史查詢記錄中出現頻率較高的語義模式,將其與體現用戶意圖的過濾方式和排序方式建立對應關係,在用戶輸入查詢片語時,確定該查詢片語所對應的語義模式,然後依據上述對應關係,確定相應的過濾方式和排序方式,並利用所述過濾方式和結果顯示方式對搜索結果進行處理後,提供給用戶,從而提高回饋結果與用戶意圖的切合程度,即提高搜索相關性。
請參考圖1,為本發明實施例提供的資訊檢索方法中的預處理過程,包括以下步驟:步驟S11、確定歷史查詢記錄中出現的各個查詢片語的語義標籤。
選擇一段時間內的歷史查詢記錄,對各個查詢片語進行語義分析,確定各個查詢片語的語義標籤。
例如:查詢詞為“手機”,則其語義標籤為“產品”。
所述語義標籤儲存於語義標籤庫,所述查詢片語儲存於查詢詞庫,所述語義標籤庫與查詢詞庫均儲存於資料庫中,且所述語義標籤庫中的語義標籤與查詢片語之間存在對應關係。
步驟S12、根據語義標籤統計其所屬語義模式。
歷史查詢記錄所覆蓋的時間越長,則查詢記錄越多,確定的語義模式覆蓋面也更廣,因而更準確。
語義模式是根據自然語言特點總結得出的,如當查詢片語包括多個查詢欄位時,根據自然語言特點,確定其中的中心詞,例如:針對“手機 電池”這個查詢片語,其中心詞為“電池”,語義模式為“修飾詞+產品”,同樣的,“數位 相機”對應的語義模式也為“修飾詞+產品”。
語義模式儲存於語義模式表中。
步驟S13、從上述步驟S12確定的語義模式中選擇出現頻率超過預定門限的語義模式。
對所述歷史查詢記錄中的查詢片語加上標籤,格式如下:[Query]\t[Semantic Pattern]\t[PV];其中,Query為查詢片語,Semantic Pattern為語義模式,PV為被查詢次數。
如表1所示:
根據所述PV資訊確定被查詢次數超過預定門限的語義模式。
可以將查詢次數超過預定門限的語義模式進行標記,也可以單獨儲存。
步驟S14、統計歷史記錄中各語義模式對應的用戶行為,設置體現該用戶行為的用戶查詢意圖屬性。所謂用戶行為,指的是用戶在利用某查詢欄位進行查詢後,在查詢結果中點擊了哪些鏈結。
歷史上,用戶輸入某查詢片語,並在返回的結果中選擇(即滑鼠點擊)某些結果,這種行為本身可以體現一種過濾和排序方式,因為每個查詢行為都會被記錄在查詢日誌中,因此,可以通過統計查詢日誌中的查詢片語所屬語義模式,設置體現對應的用戶行為的用戶查詢意圖屬性,儲存於用戶查詢意圖屬性表中。
所述用戶查詢意圖屬性包括歧義程度、權威性要求、時效性要求和地域要求,如表2所示:
這些屬性的設定決定了選擇何種過濾方式和排序方式,所述過濾方式和排序方式指的是對查詢結果的處理方式,過濾方式可以是按照地域、權威性、歧義程度過濾,所述排序方式一般指的是對結果按照某種特徵(如時間)進行排列,時間靠近查詢時間的結果排列在前。不同的屬性設置對應不同的過濾方式和排序方式。例如:如果某語義模式需要權威結果時,則需要選擇相應的過濾方式對結果資訊進行過濾,以選取其中的權威結果(如來自權威網站的權威資訊);如果某語義模式具有地域性要求時,則在結果資訊中過濾出符合地域性要求的結果資訊。或者,根據歧義程度將搜索結果資訊進行排序,歧義程度越小,位置越靠前。
步驟S15、確定語義模式的用戶查詢意圖屬性,設置語義模式與用戶查詢意圖屬性所指定的過濾方式和排序方式。
所述過濾方式指的是對搜索結果的篩選方式,排序方式指的是對搜索結果的排列。
過濾方式和排序方式與語義模式之間的關係用表格方式體現,如下表所示:
下面對各個用戶查詢意圖屬性進行分析:歧義程度,指的是用戶對搜索的資訊所理解的具體程度。當用戶對搜索的資訊有具體的理解時,則認為該語義模式是一個確定性的語義模式,例如語義模式對應的Query中包含有具體名稱、數字或表示具體限定的欄位,如:“諾基亞N92原裝電池”;否則,則可認為用戶對搜索的資訊所要求的僅是一個大概的瞭解,即需要搜索引擎回饋多角度、多來源、多領域的結果時,該語義模式就是一個泛化的語義模式,如對應的Query為“上海 代理合作”;而當語義模式中包含指示唯一性要求的資訊時,該語義模式即是一個精確的語義模式,如對應的Query為“阿裏巴巴 杭州 電話”,或“毛澤東 生日”等。
需要說明的是,在確定語義模式的歧義程度時,可以根據對應的具體Query中各查詢欄位的含義進行,例如,“手機 電池”對應的模式是泛化的模式,而“諾基亞N92電池”對應的模式則是確定性的模式,因為“諾基亞N92”的範圍比“手機”小得多。
權威性要求:指的是用戶是否需要一個權威性的結果。權威性要求可以從字面含義得到,例如語義模式“年份+政策”為一個需要權威性結果的模式,因此,對於內容為“2008年出口退稅額度”的Query,優先回饋來自權威資訊源(如官方網站)的查詢結果。
時效性要求:指的是需要回饋某時間點或時間段的結果。首先是隱性的時間要求,比如查詢“香蕉 價格”需要返回儘量即時的資訊。時效性要求也可以從字面含義得到,如果語義模式涉及到具體時間欄位(年、月、日),則該語義模式具有時效性要求。例如內容為“2008年出口退稅額度”的Query,當然,某些詞也可以表示時效性,例如“新”,“最新”,則內容為“新款 諾基亞”的Query將被配置為具有時效性要求的語義模式。
地域性要求:指的是搜索目標是否有地域範圍限制,根據用戶搜索習慣,對於一些Query類型我們根據先驗知識認為其隱性的和地域相關,例如“產品+運輸”的語義模式就是指示從本地運出的產品或者從外地運來的產品的相關資訊,具體的Query如“煤炭 運輸”。
另外,對於某類與產品相關的語義模式,還可以包括批量屬性,用於指示產品是零售還是批發。例如Query“大米 代理”一般被視為一個批發性的Query,而“Dell D630”則被視為一個零售的Query。
綜上,對於一個具體的Query,如“運輸 產品”,來說,其將被標記為“泛泛的”、“不需要權威性結果”、“有時效性要求”、“有地域性要求”和“批量大小不一定”。該模式的儲存形式可以為:
[Pattern]\t[Ambiguity]\t[Authority]\t[Temporal]\t[Regional]\t[Batch]
表4為一些具體Query的意圖分析結果(所述語義模式對應的用戶查詢意圖屬性):
用戶查詢意圖屬性和過濾方式、排序方式之間的對應關係可以以表格方式儲存,例如以“對應關係資料表”作為儲存所述對應關係的資料表。
因此,建立符合上述意圖屬性的過濾方式和排序方式與所述“運輸 產品”所屬語義模式的對應關係,從而使得在用戶的查詢片語符合所述語義模式時,根據上述對應關係,確定對應的過濾方式對查詢結果進行過濾,並以對應的排序方式進行排序。具體過程如圖2所示,包括以下步驟:
步驟S21、搜索引擎查詢片語。
步驟S22、對所述查詢片語進行語義分析,以確定其所屬語義模式。
具體的,例如根據自然語言特點,到預先設置的語義標籤庫中匹配相應的語義標籤,然後到語義模式表中進行匹配,如將具體內容為“數位 相機”或“手機 電池”的Query與語義模式“修飾詞+產品”相匹配。
步驟S23、依據預設的參考資訊,確定與所述查詢片語所屬語義模式對應的過濾方式和排序方式。所述參考資訊以表格方式(即上述的對應關係資料表)呈現。先到所述對應關係表中查詢與所述查詢片語所屬語義模式一致的語義模式,然後確定相應的過濾方式和排序方式。
所述參考資訊即上述預處理過程設置的語義模式與過濾方式和排序方式的對應關係。
步驟S24、利用所述過濾方式對結果資訊進行過濾後,按照對應的排序方式進行排序和顯示。
具體的,利用查詢片語進行搜索,然後利用所述過濾方式對搜索結果進行過濾,最後,按照所述排序方式進行排序和顯示。
例如,對於查詢片語“手機 電池”來說,其採用過濾方式是:利用“手機”作為修飾條件進行結果篩選,同時利用“電池”作為搜索主體輸入搜索引擎進行搜索。
在上述預處理過程中,由於用戶輸入的Query紛繁多變,因此為了降低提取語義模式的複雜度,可以先對Query進行處理,例如去掉非法字元及無意義的Query(字典中不存在的中文、英文單詞,亂碼等),並在進行適當的規格化操作後(合併多餘的空格,過濾無意義的符號),進行分詞(分詞具體方式屬於現有技術,在此不對其展開描述),然後再確定語義模式。
此外,為了進一步提高語義模式區分度,在上述預處理過程中,可以總結一些能夠直接體現用戶意圖的詞語,例如“代理”、“求購”、“購買”、“加盟”等,為了方便描述,下文將此類詞語稱為意圖詞。通過意圖詞表自動挖掘其對應的語義模式,比如“意圖詞+產品”,並建立確定符合該語義模式對應的意圖屬性(歧義程度、權威性要求、時效性要求、地域性要求和批量大小)的過濾方式和排序方式。於是,在後續的檢索過程中,當Query中包含出現上述意圖詞時,即可將其匹配為“意圖詞+產品”或“產品+意圖詞”的語義模式。因此,預處理過程中確定的語義模式如表5所示:
需要說明的是,由於意圖詞是脫離Query語境整理的,存在覆蓋率的問題,不能保證所有涉及意圖詞的語義模式都被發現和確定。為瞭解決這個問題,可以在進行統計之前,對Query進行擴展,將辭彙本身和其所屬語義模式進行替換,並都計入總數中,以期望所涵蓋PV較高的帶意圖詞的模式能夠被發現和確定。例如內容為“化學產品運輸”的Query可以被擴展為“產品 運輸”、“產品意圖詞”和“化學產品意圖詞”。
對於擴展後的Query及其模式,因為資料量較大,可以通過分散式計算平臺對其按照模式進行合併,並對結果按照PV進行排序,結果格式可以如下:
[Pattern]\t[PV]\t[Unique Count]\t[Examples]
此外,還需要說明的是,對與上述所有實施例中預處理過程中確定的語義模式,可以進行模式篩選,以確定良好的模式。本文認為,一個良好的模式,必然均勻地覆蓋了一定數量的Query。具體的,可以通過以下方式進行評價:設置語義模式所覆蓋的Query和PV的數量門限,並設置語義模式所覆蓋具體Query的PV分佈的熵的門限,先後以該數量門限和熵門限為基準,對確定的語義模式進行過濾,過濾掉覆蓋能力不強或分佈均勻性較差的語義模式。然後,再進行意圖分析,並設置語義模式與分類目標的對應關係。
此外,設置意圖詞提高語義模式的區分度後,可能會出現一個Query對應多個語義模式的情況,具體含義的語義模式的配置優先順序較高,而抽象含義的語義模式的配置優先順序較低。例如:具體內容為“香蕉 價格”對應“產品 意圖詞”和“產品 價格”兩個模式時,語義模式“產品 價格”將被確定與“香蕉 價格”唯一對應的語義模式。
本發明實施例根據自然語言特點及用戶的習慣用法,設置語義模式,並根據用戶意圖,將語義模式與過濾方式和排序方式建立對應關係,從而使得在接收到用戶輸入的查詢片語時,可在確定與該查詢片語匹配的語義模式後,在按照對應的過濾方式和排序方式進行處理,一方面無需檢索全部資料而減少工作量,另一方面,由於利用歷史經驗對用戶意圖進行分析,提高了用戶意圖與搜索結果的相關度,提高搜索精度。
本發明實施例同時還提供了實現上述方法的資訊檢索系統,該系統的結構如圖3所示,包括:參考儲存單元31、接收單元32、語義模式匹配單元33、處理方式確定單元34和執行單元35;其中:參考資訊儲存單元31,用於儲存語義模式與過濾方式、排序方式的對應關係,所述語義模式為歷史查詢記錄中的出現的各查詢片語的語義模式中出現頻率超過預定門限的語義模式;語義模式是根據自然語言特點總結得出的,如當查詢片語包括多個查詢欄位時,根據自然語言特點,確定其中的中心詞,例如:針對“手機 電池”這個查詢片語,其中心詞為“電池”,語義模式為“修飾詞+產品”,同樣的,“數位相機”對應的語義模式也為“修飾詞+產品”。
因為查詢日誌能夠記錄與某查詢片語對應的用戶行為,因此,可以通過統計歷史記錄中各語義模式對應的用戶行為,設置體現該用戶行為的用戶查詢意圖屬性。用戶查詢意圖屬性的設置決定了過濾方式和排序方式。因此,語義模式與過濾方式和排序方式的對應關係是可以建立的。
接收單元32,用於接收用戶輸入的查詢片語,該查詢片語一般包括兩個或兩個以上的關鍵字。
語義模式匹配單元33,用於將接收單元32接收到的查詢片語進行語義分析確定其語義標籤,進而確定其所屬語義模式。
處理方式確定單元34,用於依據參考資訊儲存單元31中儲存的資訊,確定與所述查詢片語所屬語義模式對應的過濾方式和排序方式。
執行單元35,用於利用所述過濾方式和排序方式對搜索結果進行處理。
對於上述出現頻率超過預定門限的語義模式,還可以進一步進行模式篩選,以從中確定良好的模式。本文認為,一個良好的模式,必然均勻地覆蓋了一定數量的具有同樣意圖的Query。因此,模式篩選過程可以以覆蓋率和/或熵值為基準進行,下麵通過幾個實施例詳細說明:圖4示出了資訊檢索系統的一種結構形式,包括:參考儲存單元41、接收單元42、語義模式匹配單元43、處理方式確定單元44、執行單元45和第一篩選單元46,其中:接收單元42、語義模式匹配單元43、處理方式確定單元44和執行單元45的功能,與接收單元32、語義模式匹配單元33、處理方式確定單元34和執行單元35的功能基本相同。
第一篩選單元46用於:計算預定時間段內符合語義模式的查詢片語的數量,將該查詢數量與總查詢數量的比例確定為該語義模式的覆蓋率,並提取覆蓋率大於預定門限的語義模式;參考儲存單元41用於:儲存語義模式與過濾方式和排序方式的對應關係,所述語義模式為歷史查詢記錄中的出現的各查詢片語的語義模式中出現頻率超過預定門限,且覆蓋率大於預定門限的語義模式的語義模式。
圖5示出了資訊檢索系統的另一種結構形式,包括:參考儲存單元51、接收單元52、語義模式匹配單元53、處理方式確定單元54、執行單元55和第二篩選單元56,其中:接收單元52、語義模式匹配單元53、處理方式確定單元54和執行單元55的功能,與接收單元32、語義模式匹配單元33、處理方式確定單元34和執行單元35的功能基本相同。
第二篩選單元56用於:計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,將其確定為所述語義模式的區分度,並提取熵大於預定值的語義模式;參考儲存單元51用於:儲存語義模式與過濾方式和排序方式的對應關係,所述語義模式為歷史查詢記錄中的出現的各查詢片語的語義模式中出現頻率超過預定門限,且熵大於預定值的語義模式。
圖6示出了資訊檢索系統的另一種結構形式,包括:參考儲存單元61、接收單元62、語義模式匹配單元63、處理方式確定單元64、執行單元65和第三篩選單元66,其中:接收單元62、語義模式匹配單元63、處理方式確定單元64和執行單元65的功能,與接收單元32、語義模式匹配單元33、處理方式確定單元34和執行單元35的功能基本相同。
第三篩選單元66用於:計算預定時間段內符合語義模式的查詢片語的數量,將該查詢數量與總查詢數量的比例確定為該語義模式的覆蓋率,以及計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,並提取出現頻率超過預定門限、覆蓋率大於預定門限且熵大於預定值的語義模式;參考儲存單元61用於:儲存語義模式與過濾方式和排序方式的對應關係,所述語義模式為歷史查詢記錄中的出現的各查詢片語的語義模式中出現頻率超過預定門限、熵大於預定值且覆蓋率大於預定門限的語義模式。
本領域技術人員可以理解,結合本文中所公開的實施例描述的各示例的單元及演算法步驟,能夠以電子硬體、電腦軟體或者二者的結合來實現,為了清楚地說明硬體和軟體的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬體還是軟體方式來執行,取決於技術方案的特定應用和設計約束條件。專業技術人員可以對每個特定的應用來使用不同方法來電現所描述的功能,但是這種實現不應認為超出本發明的範圍。
結合本文中所公開的實施例描述的方法或演算法的步驟可以直接用硬體、處理器執行的軟體模組,或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、記憶體、唯讀記憶體(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬碟、可攜式磁片、CD-ROM、或技術領域內所公知的任意其他形式的儲存介質中。
對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。對這些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發明的精神或範圍的情況下,在其他實施例中實現。因此,本發明將不會被限制於本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的範圍。
31...參考儲存單元
32...接收單元
33...語義模式匹配單元
34...處理方式確定單元
35...執行單元
41...參考儲存單元
42...接收單元
43...語義模式匹配單元
44...處理方式確定單元
45...執行單元
46...第一篩選單元
51...參考儲存單元
52...接收單元
53...語義模式匹配單元
54...處理方式確定單元
55...執行單元
56...第二篩選單元
61...參考儲存單元
62...接收單元
63...語義模式匹配單元
64...處理方式確定單元
65...執行單元
66...第三篩選單元
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發明實施例提供的資訊檢索方法中的預處理流程圖;
圖2為本發明實施例提供的資訊檢索方法中的檢索流程圖;
圖3為本發明實施例提供的資訊檢索系統的結構示意圖1;
圖4為本發明實施例提供的資訊檢索系統的結構示意圖2;
圖5為本發明實施例提供的資訊檢索系統的結構示意圖3;
圖6為本發明實施例提供的資訊檢索系統的結構示意圖4。

Claims (10)

  1. 一種資訊檢索方法,其特徵在於,包括:預處理步驟,包括:確定歷史查詢記錄中出現的各查詢片語的語義標籤,根據語義標籤統計語義模式,從統計結果中選擇出現頻率超過預定門限的語義模式;通過統計歷史記錄中各語義模式對應的用戶行為,設置體現該用戶行為的用戶查詢意圖屬性,設置該語義模式與該用戶查詢意圖屬性所指定的過濾方式和排序方式的對應關係;檢索步驟,包括:接收查詢片語,進行語義分析確定其所屬語義標籤;依據該對應關係,確定與該查詢片語所屬語義模式對應的過濾方式和排序方式;利用該過濾方式和排序方式對搜索結果進行處理。
  2. 如申請專利範圍第1項之方法,其中,在確定高頻語義模式後,還包括:依據覆蓋率對語義模式進行篩選,篩選過程包括:計算預定時間段內符合語義模式的查詢片語的數量,將該查詢數量與總查詢數量的比例確定為該語義模式的覆蓋率;提取覆蓋率大於預定門限的語義模式。
  3. 如申請專利範圍第1項之方法,其中,在確定高頻語義模式後,還包括:依據區分度對語義模式進行篩選,篩選過程包括:計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,將其確定為該語義模式的區分度;提取熵大於預定值的語義模式。
  4. 如申請專利範圍第1項之方法,其中,在確定高頻語義模式後,還包括:依據覆蓋率和區分度對語義模式進行篩選,篩選過程包括:計算預定時間段內符合該語義模式的查詢次數,將該查詢次數與總查詢次數的比例確定為該語義模式的覆蓋率;計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,將其確定為該語義模式的區分度;提取覆蓋率大於預定門限及熵大於預定值的語義模式。
  5. 如申請專利範圍第1項之方法,其中,該用戶查詢意圖屬性包括:歧義程度屬性、權威性要求屬性、時效性要求屬性、地域要求屬性和批量屬性。
  6. 一種資訊檢索方法,其特徵在於,包括:接收查詢片語,到預先設置的語義標籤庫中匹配相應的語義標籤;根據匹配到的該語義標籤到語義模式表中匹配獲得該查詢片語的語義模式;根據該語義模式到按照用戶查詢意圖屬性預設的語義模式與過濾、排序方式的對應關係表中匹配獲得該查詢片語對應的過濾方式和排序方式;利用該過濾方式和排序方式對該查詢片語的搜索結果進行處理。
  7. 一種資訊檢索系統,其特徵在於,包括:參考資訊儲存單元,用於儲存語義模式與過濾方式和排序方式的對應關係,該語義模式為歷史查詢記錄中的出現的各查詢片語的語義模式中出現頻率超過預定門限的語義模式,該過濾方式和排序方式為用戶查詢意圖屬性所指定,該用戶查詢意圖屬性是通過統計歷史記錄中各語義模式對應的用戶行為設定的;接收單元,用於接收查詢片語;語義模式匹配單元,用於將該接收單元接收到的查詢片語進行語義分析確定其語義標籤;處理方式確定單元,用於依據該參考資訊儲存單元中儲存的資訊,確定該查詢片語所屬語義模式及其對應的過濾方式和排序方式;執行單元,用於利用該過濾方式和排序方式對搜索結果進行處理。
  8. 如申請專利範圍第7項之系統,其中,還包括:第一篩選單元,用於:計算預定時間段內符合語義模式的查詢片語的數量,將該查詢數量與總查詢數量的比例確定為該語義模式的覆蓋率,並提取覆蓋率大於預定門限的語義模式;該參考資訊儲存單元儲存的語義模式為:出現頻率超過預定門限且覆蓋率大於預定門限的語義模式。
  9. 如申請專利範圍第7項之系統,其中,還包括:第二篩選單元,用於:計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,將其確定為該語義模式的區分度,並提取熵大於預定值的語義模式;該參考資訊儲存單元儲存的語義模式為:出現頻率超過預定門限且熵大於預定值的語義模式。
  10. 如申請專利範圍第7項之系統,其中,還包括:第三篩選單元,用於:計算預定時間段內符合語義模式的查詢片語的數量,將該查詢數量與總查詢數量的比例確定為該語義模式的覆蓋率,以及計算預定時間段內屬於同一語義模式的具體關鍵欄位組針對所有查詢的關鍵欄位組中的熵,並提取出現頻率超過預定門限、覆蓋率大於預定門限且熵大於預定值的語義模式;該參考資訊儲存單元儲存的語義模式為:出現頻率超過預定門限、覆蓋率大於預定門限且熵大於預定值的語義模式。
TW99106781A 2010-03-09 2010-03-09 Information retrieval methods and systems TWI474197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW99106781A TWI474197B (zh) 2010-03-09 2010-03-09 Information retrieval methods and systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW99106781A TWI474197B (zh) 2010-03-09 2010-03-09 Information retrieval methods and systems

Publications (2)

Publication Number Publication Date
TW201131394A TW201131394A (en) 2011-09-16
TWI474197B true TWI474197B (zh) 2015-02-21

Family

ID=50180357

Family Applications (1)

Application Number Title Priority Date Filing Date
TW99106781A TWI474197B (zh) 2010-03-09 2010-03-09 Information retrieval methods and systems

Country Status (1)

Country Link
TW (1) TWI474197B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274217A (zh) * 2017-05-27 2017-10-20 冯小平 确定用户当前行为以及预测用户意图的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5604899A (en) * 1990-05-21 1997-02-18 Financial Systems Technology Pty. Ltd. Data relationships processor with unlimited expansion capability
TW200921454A (en) * 2007-07-16 2009-05-16 Novafora Inc Method and apparatus for video digest generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5604899A (en) * 1990-05-21 1997-02-18 Financial Systems Technology Pty. Ltd. Data relationships processor with unlimited expansion capability
US5826259A (en) * 1990-05-21 1998-10-20 Financial Systems Technology Pty. Ltd. Easily expandable data processing system and method
TW200921454A (en) * 2007-07-16 2009-05-16 Novafora Inc Method and apparatus for video digest generation

Also Published As

Publication number Publication date
TW201131394A (en) 2011-09-16

Similar Documents

Publication Publication Date Title
CN102012900B (zh) 信息检索方法和系统
US9418144B2 (en) Similar document detection and electronic discovery
CN111008265B (zh) 企业信息搜索方法及装置
US9846748B2 (en) Searching for information based on generic attributes of the query
CN107729336B (zh) 数据处理方法、设备及系统
US10042896B2 (en) Providing search recommendation
TWI544351B (zh) Extended query method and system
US20060212441A1 (en) Full text query and search systems and methods of use
CN112257419B (zh) 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
WO2012129149A2 (en) Aggregating search results based on associating data instances with knowledge base entities
TW201348991A (zh) 搜尋方法和系統
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN111444304A (zh) 搜索排序的方法和装置
WO2020147332A1 (zh) 一种扩大商品搜索召回的方法及装置
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
JP2017537398A (ja) 一組の構造化データタームからの非構造化検索クエリの生成
TWI474197B (zh) Information retrieval methods and systems
TWI547888B (zh) A method of recording user information and a search method and a server
CN113590792A (zh) 用户问题的处理方法、装置和服务器
TWI483129B (zh) Retrieval method and device
Sun [Retracted] A Novel Literary Translation Text Classification Method Based on Distributed Incremental Sequence Data Mining Algorithm
CN115328945A (zh) 数据资产的检索方法、电子设备及计算机可读存储介质
Wang et al. Enhancing contents-link coupled web page clustering and its evaluation
CN116186191A (zh) 基于多维信息的任务匹配方法
Noce et al. A Query and Product Suggestion Method for Price Comparison Search Engines

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees