TWI446191B - Word matching and information query method and device - Google Patents
Word matching and information query method and device Download PDFInfo
- Publication number
- TWI446191B TWI446191B TW98122781A TW98122781A TWI446191B TW I446191 B TWI446191 B TW I446191B TW 98122781 A TW98122781 A TW 98122781A TW 98122781 A TW98122781 A TW 98122781A TW I446191 B TWI446191 B TW I446191B
- Authority
- TW
- Taiwan
- Prior art keywords
- word
- user
- query
- query result
- matched
- Prior art date
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Description
本申請關於資料處理技術,特別關於一種詞匹配及資訊查詢方法及裝置。
潛在詞義通常是指一個詞(包括短語)潛在的意義,通常可以通過另外一個或多個詞(包括短語)來表達,比如通常所稱的“冰箱”其一般情況下潛在的詞義是指“電冰箱”,而“棉拖”其一般情況下潛在的詞義是指“全棉拖鞋”等。
自動發現潛在詞義是自然語言處理的一個基本問題,它的解決可以提高文字檔理解、機器翻譯及搜尋引擎的效果及性能。
分詞技術是自然語言處理中常用的技術,分詞是將一個輸入字串分成若干個詞或短語,比如“曾經有一段誠摯的感情擺在我的面前”,經過分詞處理後,通常情況下得到的分詞結果為“曾經|有|一段|誠摯|的|感情|擺在|我|的|面前”。
用戶回饋日誌記錄了查詢詞對應的查詢結果(文字檔或網頁ID等)及查詢結果點擊頻率、曝光頻率等。點擊頻率、曝光頻率等資訊反應了用戶對該查詢結果的認同程度,一般意義上符合用戶需求的文字檔點擊率比不符合用戶意圖的點擊率要高,比如查“西藥”,結果“批發西藥”及“江西藥廠”的單字的匹配程度是一樣的,但是通常第一個結果的點擊率會比第二個結果要高。
通過分析用戶回饋日誌可以發現與查詢詞字元匹配程度較高,同時表達方式不同的詞,比如搜尋“冰箱”一詞時,會發現很多帶“電冰箱”的結果,比如“雙開門電冰箱”、“發明了冰箱”、“電冰箱廠家”、“銷售電冰箱”、“存冰箱子”等,收集點擊率相對較高的結果,並且對出現冰箱的句子分詞,統計每個分詞的頻率,如果某個或多個分詞結果大於設定的閾值,則做下面處理:查詢詞包含在一個高頻分詞結果中,比如“冰箱”包含在“電冰箱”中,則認為“電冰箱”是“冰箱”的潛在詞義;查詢詞包含在相鄰的兩個高頻分詞中,例如:查詢詞“玻璃瓶”包含在“玻璃”及“瓶子”這兩個高頻分詞中,這也通常被認為“玻璃瓶子”是“玻璃瓶”的潛在詞義。
目前潛在語意的自動發現上已經有過不少的研究,大多是通過詞語的共現或鏈結關係來發現近義詞。例如陸勇、侯漢清在文章“基於PageRank演算法的漢語同義詞自動識別”中介紹了一種同義詞的自動發現方法,該文章將辭彙之間解釋與被解釋的關係看成是一種鏈結,把PageRank值看成是體現辭彙之間語義相似性的衡量指標,然後根據語義相似度的大小識別同義詞。這個方法的缺點是:基於人工標注的語料,挖掘得到的詞條數量會比較有限。如果改成基於網際網路網頁之間的鏈結關係,這種鏈結關係有時又很不可靠,同義詞自動發現的效果很難得到保障。
搜尋引擎的索引方式包括單字搜尋、分詞索引及混合索引。單字索引需要計算文字檔內單字之間的距離,效率不高,並且精確率低,比如搜尋“農藥”時,單字索引無法區分“神農藥廠”及“神農農藥廠”的區別;而分詞搜尋精確率高,速度快,但是分詞索引召回率有時比較低,比如搜“冰箱”時,分詞索引方法只能找到“冰箱”的結果,而找不到“電冰箱”的結果;單字索引及分詞索引結合的混合索引方法通常是先根據分詞索引查詢,然後再根據單字索引查詢,比如查“玻璃瓶”時,先按分詞索引找到“玻璃瓶”的結果,再按單字索引找出其他結果,這種彌補了兩種方法的缺點,但是“玻璃瓶子”是根據單字索引的方式找到的,搜尋引擎不能區分“玻璃瓶子”及“生產玻璃瓶頸在於”的差異,影響搜尋的準確性;前面的方法缺少足夠的資料量,或者缺少用戶的回饋,抽取出來的潛在語意太少或很有可能是錯誤的。
如陸勇、侯漢清提到的詞義自動發現方法主要是通過已有的詞典資料作為抽取來源,樣本量在幾千條左右。如果是以網際網路網頁等大資料量為基礎的挖掘方法,又缺乏準確性。
因此現有技術的不足在於:當面臨如網際網路等存在著大資料量的情況時,尚沒有一種好的查詢方案能夠準確的預知用戶真正所需查詢的內容,也因此不能向用戶回饋用戶真正所需的查詢結果。
本申請提供了一種詞匹配方法及裝置,用以提供一種在存在海量資料的情況下,準確判斷詞與詞之間的內在聯繫,並將其匹配的方案。
本申請實施例提供了一種詞匹配方法,包括如下步驟:獲取待匹配詞;根據待匹配詞獲取用戶回饋日誌;根據該用戶回饋日誌確定與待匹配詞匹配的詞。
較佳地,該用戶回饋日誌包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率。
較佳地,根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞。
較佳地,該點選頻率包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率。
較佳地,該根據對歷史查詢結果的內容的點選頻率確定與待匹配詞匹配的詞,包括:獲取待匹配詞的歷史查詢結果的內容;對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;根據分詞後的詞的點選頻率確定與待匹配詞匹配的詞。
較佳地,該分詞後的詞包括下述方式的詞或者其組合:分詞後與待匹配詞相鄰的詞;分詞後包含待匹配詞的詞;分詞後包括待匹配詞組成部分的詞。
較佳地,在根據該查詢結果以及點選頻率確定與待匹配詞匹配的詞時,該點選頻率大於設定閾值。
較佳地,該獲取待匹配詞,包括:獲取用戶輸入的資訊內容;對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;將分詞後的詞及/或字作為待匹配詞。
較佳地,該點選頻率包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合。
較佳地,進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該獲取用戶回饋日誌時,根據該用戶的用戶特徵獲取用戶回饋日誌。
較佳地,進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;所述獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以所述待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
較佳地,進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該根據該用戶回饋日誌確定與待匹配詞匹配的詞時,根據該用戶特徵確定與待匹配詞匹配的詞。
本申請實施例還提供了一種詞匹配裝置,包括:待匹配詞獲取模組,用於獲取待匹配詞;用戶回饋日誌獲取模組,用於根據待匹配詞獲取用戶回饋日誌;匹配模組,用於根據該用戶回饋日誌以及點選頻率確定與待匹配詞匹配的詞。
較佳地,該用戶回饋日誌獲取模組進一步用於獲取包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率的用戶回饋日誌。
較佳地,匹配模組進一步用於根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞。
較佳地,該用戶回饋日誌獲取模組進一步用於獲取包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率作為該點選頻率。
較佳地,該匹配模組包括:內容獲取單元,用於獲取待匹配詞的歷史查詢結果的內容;分詞單元,用於對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;匹配單元,用於根據分詞後的詞的點選頻率確定與待匹配詞匹配的詞。
較佳地,該分詞單元進一步用於在分詞後獲得下述方式的詞或者其組合:分詞後與待匹配詞相鄰的詞;分詞後包含待匹配詞的詞;分詞後包括待匹配詞組成部分的詞。
較佳地,該匹配模組進一步用於在根據該歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞時,該點選頻率大於設定閾值。
較佳地,該待匹配詞獲取模組包括:資訊內容獲取單元,用於獲取用戶輸入的資訊內容;分詞/分解單元,用於對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;待匹配詞確定單元,用於將分詞後的詞及/或字作為待匹配詞。
較佳地,該用戶回饋日誌獲取模組進一步用於獲取包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合的參數作為點選頻率。
較佳地,該待匹配詞獲取模組進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該用戶回饋日誌獲取模組進一步用於根據用戶特徵獲取用戶回饋日誌。
較佳地,該待匹配詞獲取模組進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該用戶回饋日誌獲取模組進一步用於在獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
較佳地,該待匹配詞獲取模組進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該匹配模組進一步用於在根據該用戶回饋日誌確定與待匹配詞匹配的詞時,根據該用戶特徵確定與待匹配詞匹配的詞。
基於同一構思,本申請提供一種資訊查詢方法及裝置,用以提供一種在存在海量資料的情況下,利用前述的詞與詞之間匹配關係,準確判斷用戶查詢資訊的真實需要,並回饋用戶真正所需的查詢結果。
本申請實施例中提供了一種資訊查詢方法,包括如下步驟:獲取輸入的第一查詢關鍵詞;根據第一查詢關鍵詞獲取用戶回饋日誌;根據該用戶發饋日誌確定與第一查詢關鍵詞匹配的第二查詢關鍵詞;回饋以第二查詢關鍵詞為目標進行查詢的查詢結果。
較佳地,該用戶回饋日誌包括以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率。
較佳地,根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
較佳地,該點選頻率包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率。
較佳地,該根據對歷史查詢結果的內容的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞,包括:獲取第一關鍵詞的歷史查詢結果的內容;對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;根據分詞後的詞的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
較佳地,該分詞後的詞是指下述方式的詞或者其組合:分詞後與第一查詢關鍵詞相鄰的詞;分詞後包含第一查詢關鍵詞的詞;分詞後包括第一查詢關鍵詞組成部分的詞。
較佳地,在根據該歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞時,該點選頻率大於設定閾值。
較佳地,該獲取輸入的第一查詢關鍵詞,包括:獲取用戶輸入的資訊內容;對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;將分詞後的詞及/或字作為第一查詢關鍵詞。
較佳地,該點選頻率包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合。
較佳地,進一步包括:在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;該獲取用戶回饋日誌時,根據該用戶的用戶特徵獲取用戶回饋日誌。
較佳地,進一步包括:在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;該獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
較佳地,進一步包括:在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;該根據該用戶回饋日誌確定第二查詢關鍵詞時,根據該用戶特徵確定第二查詢關鍵詞。
本申請實施例中還提供了一種資訊查詢裝置,包括:第一查詢關鍵詞獲取模組,用於獲取輸入的第一查詢關鍵詞;用戶回饋日誌獲取模組,用於根據第一查詢關鍵詞獲取用戶回饋日誌;匹配模組,用於根據該用戶回饋日誌確定與第一查詢關鍵詞匹配的第二查詢關鍵詞;查詢結果回饋模組,用於回饋以第二查詢關鍵詞為目標進行查詢的查詢結果。
較佳地,用戶回饋日誌獲取模組進一步用於獲取包括以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率的用戶回饋日誌。
較佳地,匹配模組進一步用於根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
較佳地,該用戶回饋日誌獲取模組進一步用於獲取包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率作為該點選頻率。
較佳地,該匹配模組包括:內容獲取單元,用於獲取第一關鍵詞的歷史查詢結果的內容;分詞單元,用於對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;匹配單元,用於根據分詞後的詞的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
較佳地,該分詞單元進一步用於在分詞後獲得下述方式的詞或者其組合:分詞後與第一查詢關鍵詞相鄰的詞;分詞後包含第一查詢關鍵詞的詞;分詞後包括第一查詢關鍵詞組成部分的詞。
較佳地,該匹配模組進一步用於在根據該歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞時,該點選頻率大於設定閾值。
較佳地,該第一查詢關鍵詞獲取模組包括:資訊內容獲取單元,用於獲取用戶輸入的資訊內容;分詞/分解單元,用於對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;第一查詢關鍵詞確定單元,用於將分詞後的詞及/或字作為第一查詢關鍵詞。
較佳地,該用戶回饋日誌獲取模組進一步用於獲取包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合的參數作為點選頻率。
較佳地,該第一查詢關鍵詞獲取模組進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;該用戶回饋日誌獲取模組進一步用於根據用戶特徵獲取用戶回饋日誌。
較佳地,該第一查詢關鍵詞獲取模組進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;該用戶回饋日誌獲取模組進一步用於在獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
較佳地,該第一查詢關鍵詞獲取模組進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;所述匹配模組進一步用於在根據該用戶回饋日誌確定第二查詢關鍵詞時,根據該用戶特徵確定第二查詢關鍵詞。
本申請有益效果如下:本申請實施中,在獲取輸入的第一查詢關鍵詞後,就去獲取第一查詢關鍵詞的用戶回饋日誌,而用戶回饋日誌中包括了以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率;然後根據歷史查詢結果以及點選頻率來確定與第一查詢關鍵詞匹配的第二查詢關鍵詞;最後回饋的是以匹配後的第二查詢關鍵詞為目標進行查詢的查詢結果。由於在此過程中採用了用戶回饋日誌作為發現用戶查詢資訊潛在詞義的基礎,因此在擁有大量的資料情況下,能夠利用以往的用戶回饋資訊準確的確定出查詢資訊的潛在詞義,從而提高了資訊查詢的準確性。
下面結合附圖對本申請的具體實施方式進行說明。
圖1為資訊查詢方法實施流程示意圖,如圖所示,可以包括如下步驟:步驟101、獲取輸入的第一查詢關鍵詞;步驟102、根據第一查詢關鍵詞獲取用戶回饋日誌;用戶回饋日誌包括以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率;步驟103、根據該歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞;步驟104、回饋以第二查詢關鍵詞為目標進行查詢的查詢結果。
下面對各步驟的具體實施進行說明。
步驟101中,對於第一查詢關鍵詞,可以是:獲取用戶輸入的資訊內容;對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;將分詞後的詞及/或字作為第一查詢關鍵詞。
可以看出,本申請實施過程中用於查詢的關鍵詞可以是詞也可以是字,當是字時,可以視為通常所指的單字查詢,通過對用戶輸入的需要查詢的資訊內容來說,以各種查詢單位,如字或詞來查詢,或者結合起來查詢顯然可以使查詢結果的精度更高、更準確。
步驟102中,用戶回饋日誌通常是指搜尋引擎用來收集用戶輸入的關鍵詞及歷史查詢結果(通常是網頁文字檔ID等)及歷史查詢結果的點擊頻率、曝光率等。
實施中,用戶回饋日誌可以包括的是歷次以第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及歷次用戶對歷史查詢結果的點選頻率,用戶回饋日誌作為建立潛在詞義的樣本,可以採用歷次的記錄,但是,用戶回饋日誌的目的在於通過以往的記錄來確定詞與詞之間的內在關係,從而建立潛在詞義,只要能實現該目的,顯然也可以選取部分歷史查詢結果,或者是隨機選取等等方式來採集確定潛在詞義的樣本。同樣道理,用戶回饋日誌在選取時,並不是以用戶為物件來進行選取,而是以歷史上進行查詢的詞為目標來進行選取,例如需要獲取第一查詢關鍵詞為“西藥”的用戶回饋日誌時,獲取的是歷史上用“西藥”為查詢詞的所有或者部分用戶的用戶回饋日誌。
潛在詞義的自動發現特指找出一個詞(短語)及另外詞義相關或相近的一個詞(短語)或多個詞(短語)。本申請實施例的本質在於通過利用用戶參與的用戶回饋日誌以便能夠非常可靠的自動發現查詢詞及歷史查詢結果之間體現用戶意圖的潛在詞義關係,並利用該關係來提高搜尋引擎的準確率及智慧。因此,用戶回饋日誌中可以包括歷次以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及歷次用戶對歷史查詢結果的點選頻率。並在步驟103中基於歷史查詢結果以及點選頻率來尋找第一查詢關鍵詞的潛在詞義。即,在步驟102中獲取的是用戶回饋日誌,並利用用戶回饋日誌來確定第一查詢關鍵詞的潛在詞義,從而能夠通過步驟103輸出及步驟101中第一查詢關鍵詞之間存在潛在詞義關係的第二查詢關鍵詞。
其中,點選頻率可以包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率。
下面對步驟103的具體實施進行說明。
首先對根據對歷史查詢結果的內容的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞進行說明。
獲取第一關鍵詞的歷史查詢結果的內容;對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;根據分詞後的詞的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
實施中,分詞後的詞是指下述方式的詞或者其組合:第一種詞:分詞後與第一查詢關鍵詞相鄰的詞,為描述方便,實施例中將該種情況下的點選頻率相關的統計結果記為P1;第二種詞:分詞後包括第一查詢關鍵詞組成部分的詞,為描述方便,實施例中將該種情況下的點選頻率相關的統計結果記為P2;第三種詞:分詞後包含第一查詢關鍵詞的詞,為描述方便,實施例中將該種情況下的點選頻率相關的統計結果記為P3。
下面先對步驟103的實施原理進行說明。
用戶回饋日誌是用來記錄查詢詞對應的歷史查詢結果及歷史查詢結果的點擊率、曝光頻率等資訊的,如查詢結果為網頁等;發明人在發明過程中注意到:對於某個查詢詞點擊率越高的網頁與查詢詞越相關。一個詞的潛在詞義是指及它同義、近義或者部分同義的詞,比如“玻璃瓶”及“玻璃瓶子”,又如“雙人床”、“單人床”、“彈簧床”等詞都潛在“床”的詞義,而“機床”等則不潛在“床”的詞義。在本申請實施例中定義了三種潛在詞義:第一種詞是經常成對出現的詞,比如“摩托羅拉”及“公司”,“摩托羅拉”及“手機”,這種關係通常是一個詞及另外一個詞密切相關,即,分詞後的有些詞與查詢詞相鄰;第二種詞是一個詞及另外多個並按一定順序出現的詞,比如“玻璃瓶”及“玻璃”“瓶子”,“美女”及“美麗的”“女人”,即分詞後其包含了查詢詞的組成部分;第三種詞是一個詞是一個詞組成部分,比如“蝦”及“對蝦”,“酒”及“啤酒”,即,分詞後的詞包含了查詢詞。這些通過點擊率等用戶回饋自動發現的潛在詞義往往代表了用戶輸入的搜尋關鍵字的潛在意圖,可以用來提高搜尋引擎的準確率,比如用戶搜尋“床”時大部分用戶的實際意圖是睡覺的床比如“單人床”、“雙人床”、“木板床”等,而不是機械設備比如“機床”或“車床”。通過用戶點擊等回饋就能知道前者有“床”的潛在詞義,而後者(機床等)沒有。
本申請在具體實施中,首先輸入第一查詢關鍵詞、歷史查詢結果(網頁,文字檔ID等)及歷史查詢結果的點擊率、曝光率等資訊或其中之一,即輸入步驟101中的第一查詢關鍵詞以及步驟102獲取用戶回饋日誌的執行結果;然後對第一查詢關鍵詞進行分詞,如果第一查詢關鍵詞包括多個詞,則將這條查詢詞的用戶回饋日誌中對應的歷史查詢結果及相關資訊添加到這條查詢詞中相應的每個分詞中去,即,使這條查詢詞在分詞後的每個詞都有自己的歷史查詢結果,這樣處理後,用戶回饋日誌的每個query(查詢)都是一個單獨的分詞;然後對每個分詞後得到詞或其中部分分別做上述與P1、P2、P3有關的處理,直到所有或部分分詞後的詞處理完畢,歷史查詢結果的選取可以根據歷史查詢結果總的查詢次數、點擊次數、曝光次數等資訊或其中之一確定;對分詞後的詞對應的歷史查詢結果分別做處理直到所有歷史查詢結果處理完畢;從用戶回饋日誌中的歷史查詢結果中找出所有與分詞後的詞完全匹配的字串(這裏完全匹配是指分詞後的詞是字串的一個子串),字串的尺度可以是包含分詞後的詞的句子長度,或包含分詞後的詞長度的M倍,M可以是大於1的任何數,然後對字串分詞後做上述與P1、P2、P3有關的處理,需要說明的是,為便於描述,下述實施例中以文字檔為查詢結果,實施時,同時考慮了對查詢結果的點選頻率及對查詢結果的內容的點選頻率,顯然,只考慮其中一個同樣能實現申請目的。
具體實施中,當在輸入第一查詢關鍵詞、歷史查詢結果(網頁,文字檔ID等)及歷史查詢結果的點擊率、曝光率等資訊或其中之一時,可以設置一個查詢詞典,提前輸入歷史查詢結果(網頁,文字檔ID等)及歷史查詢結果的點擊率、曝光率等資訊或其中之一,這樣當輸入第一查詢關鍵詞時,通過查詢詞典便可以快捷的獲得第二查詢關鍵詞。也就是將以往的用戶回饋日誌的內容預先儲存用於查詢,也可以根據新的用戶回饋日誌隨時對查詢詞典進行更新;當然也可以在輸入第一查詢關鍵詞後再調用用戶回饋日誌。
第一種:分詞後與第一查詢關鍵詞相鄰的詞的實施。
如果第一查詢關鍵詞是字串的一個分詞,比如第一查詢關鍵詞是“美女”,用戶回饋日誌中的歷史查詢結果是“中國|古代|美女|西施|名|夷光|,|春秋|戰國|時期|出生”(這裏“|”表示分詞結果),這時將查詢詞前後的T個分詞在字串中出現的次數乘以該文字檔的點擊頻率及曝光頻率(或其中之一)作為權重的一個係數,記為次數加權(1),加到總的查詢結果的統計P1,P1中包含了第一查詢關鍵詞前後出現的每個詞的次數加權(1),例如本例中,如果文字檔的權重為0.5,則P1中“古代”及“西施”(這只是T等於1的情況)對應的結果會相應加0.5。
第二種:分詞後包括第一查詢關鍵詞組成部分的詞。
如果第一查詢關鍵詞包含在字串相鄰的多個分詞結果中,比如第一查詢關鍵詞是“美女”,用戶回饋日誌中的歷史查詢結果是“西施|是|個|美麗的|女人|”(這裏“|”表示分詞結果),這時將包含第一查詢關鍵詞的分詞出現次數並乘以該文字檔的點擊頻率/曝光頻率(或其中之一)作為權重的一個係數,記為次數加權(2),加到總的查詢結果的統計P2,P2中是包括第一查詢關鍵詞的多個分詞按照相同順序出現的次數加權(2),例如本例中,如果文字檔的權重為0.3,則將P2中“|美麗的|女人|”對應的結果加0.3。
第三種:分詞後包含第一查詢關鍵詞的詞。
如果第一查詢關鍵詞是字串一個分詞的字串,比如查詢詞是“冰箱”,用戶回饋日誌中的歷史查詢結果是“電冰箱|空調器|原理|與|維修”(這裏“|”表示分詞結果),這時將包含第一查詢關鍵詞的分詞出現次數並乘以該文字檔的點擊頻率及曝光頻率(或其中之一)作為權重的一個係數,記為次數加權(3),加到總的查詢結果的統計P3,P3是包括第一查詢關鍵詞的分詞出現的次數加權(3),例如本例中,如果文字檔的權重為0.8,則將P3中“電冰箱”對應的結果加0.8。
不斷重複直到對於單個分詞後的詞所有的用戶回饋日誌中的歷史查詢結果全部處理完畢;按照P1中分詞出現的次數加權和,取次數加權和大於設定的第一閾值的分詞,將這些分詞作為該查詢詞的第一種潛在詞義關係,同樣,按照P2,P3中分詞出現的次數加權和,並取次數加權和大於設定的第二、第三閾值的分詞,將這些分詞作為該詞的第二種潛在詞義及第三種潛在詞義關係。
本領域技術人員容易知道,實施中可以選用三種選擇潛在詞義中的一種,也可以任意兩種組合或三種組合;同樣,實施中,第一、第二、第三閾值可以是固定閾值,也可以根據查詢詞總體查詢結果動態設定,比如將所有包含了匹配字串的文字檔權重求和,然後再乘以一個係數,該係數便可根據查詢結果動態設定;閾值設置的目的在於有選擇的確定一部分查詢詞的潛在詞義的詞,並非將所有的詞都無條件回饋。
具體實施中,在根據該歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞時,可以要求點選頻率大於設定閾值,其中,點選頻率可以是用戶對歷史查詢結果的點選頻率,也可以是用戶對歷史查詢結果的內容的點選頻率。其目的在於將文字檔或者其內容的點擊頻率及曝光頻率(或其中之一)作為權重的一個係數,該係數可以與點擊率及曝光率二者之一或兩者的組合,係數大小及點擊及曝光頻率可以是線性或非線性的關係,比如(不限於)兩者頻率高於某一設定閾值的全部為1,其他為0;或者點擊率及曝光率最高的為1,其他的除以最大值歸一化到[0,1]。點選頻率的選取目的在於通過它來發現潛在詞義,因而可以通過設定閾值來過濾一些點選頻率較低的資訊,從而提高發現潛在詞義的速度,同時也可以避免一些資訊的干擾。
實施中,點選頻率包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合。本領域技術人員容易理解,該文字檔的點擊頻率及曝光頻率(或其中之一)作為權重的一個係數,係數也可以是文字檔的其他資訊,比如閱讀時間,重要程度等或其中之一或與點擊率曝光率的結合。
實施中,潛在詞義不但是查詢詞與潛在詞義的關係,反過來也成立。例如“玻璃瓶”潛在詞義“玻璃|瓶子”,等價於“玻璃|瓶子”潛在“玻璃瓶”,或者“冰箱”潛在詞義“電冰箱”,等價於“電冰箱”潛在詞義“冰箱”。
在確定了第一查詢關鍵詞的潛在詞義後,便可以執行步驟104,步驟104、回饋以潛在詞義,即第二查詢關鍵詞為目標進行查詢的查詢結果了。
實施中,在步驟101的獲取輸入的第一查詢關鍵詞時,可以進行如下處理:獲取用戶輸入的資訊內容;對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;將分詞後的詞及/或字作為第一查詢關鍵詞。
在確定第一查詢關鍵詞時,可以採用兩種來源,一種是對用戶輸入的資訊內容先進行分詞,然後用分詞後的結果進行查詢,或者將該資訊內容以字為單位分解後進行單字查詢。顯然這兩種方式可以同時進行也可以組合進行,在組合時可以是:先對用戶輸入的查詢詞分詞,再根據分詞結果做查詢,然後再根據查詢詞分詞的潛在語意做查詢,最後做單字查詢。分詞結果做查詢是指根據查詢詞的分詞結果從分詞索引中查詢相關結果;單字查詢是指從單字索引中查詢結果;潛在語意查詢是指利用查詢詞的潛在意義得到查詢結果,對於在上述實施例中提到的三種語意(或其中任意一種)分別(或單獨)做如下處理:對於第一種潛在詞義的詞,通過“查詢詞+第一種潛在詞義的詞”查詢得到相關結果,如查詢詞是“摩托羅拉”,那麼相應的第一種潛在詞義的詞查詢為“摩托羅拉公司”、“摩托羅拉手機”,這裏假定“摩托羅拉”的第一種潛在詞義的詞是“公司”及“手機”;對於第二種潛在詞義的詞,通過第二種潛在詞義的“相鄰查詢詞”得到查詢結果,比如“玻璃瓶”相應的第二種潛在詞義的詞為“玻璃|瓶子”;對於第三種潛在詞義的詞,是通過第三種潛在詞義的詞得到的查詢結果,例如查詢“電冰箱”,第三潛在詞義的詞是“冰箱”。
顯然,基於潛在詞義查詢的查詢結果在計算查詢詞與文字檔的相關程度時,應該比單字查詢得到結果的相關程度高,這個相關程度的分值會影響查詢結果的排序(根據相關程度及網頁重要程度等,如pageRank)。
進一步的,實施中還可以在步驟101獲取第一查詢關鍵詞時,還獲取輸入第一查詢關鍵詞的用戶的用戶特徵;即,可以在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵。
這樣,在步驟102獲取用戶回饋日誌時,還可以根據用戶特徵獲取用戶回饋日誌。
或者,在獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,而在這些歷史查詢結果中則包括了這些用戶特徵。
或者,在根據用戶回饋日誌確定第二查詢關鍵詞時,根據用戶特徵確定第二查詢關鍵詞。
即:在根據用戶回饋日誌匹配第二查詢關鍵詞時,還可以根據輸入第一查詢關鍵詞的用戶特徵匹配不同的第二查詢關鍵詞。採用用戶特徵來對用戶回饋日誌進行甄選,有利於更進一步的發現第一查詢關鍵詞的潛在詞義。比如:按前述實施例,用戶在搜尋“床”時,大部分用戶的實際意圖是睡覺的床,比如“單人床”、“雙人床”、“木板床”等,而不是機械設備比如“機床”或“車床”。這時通過用戶點擊等回饋就能知道前者有“床”的潛在詞義,而潛在詞義中則不包含“機床”等;然而,同樣的查詢關鍵詞“床”,如果用戶是機械設備領域的技術人員,則其潛在詞義則應當是“機床”,而非“單人床”、“雙人床”、“木板床”等,本實施例中,“機械設備領域的技術人員”便是用戶特徵,其作用在於對用戶回饋日誌進行分類,以便更好的發現詞的潛在詞義。
再例如:用戶輸入的第一查詢關鍵詞是“蘋果”,如果用戶特徵是電腦工作者,則匹配電腦類的第二查詢關鍵詞;如果用戶特徵是農業科學工作者,則匹配水果類的第二關鍵詞。具體實施中,用戶特徵可以包括用戶所在區域(例如所在國家、地區、城鎮)、用戶以前頻繁流覽的網頁、用戶不久前流覽的網頁、用戶以前輸入的搜尋關鍵詞、用戶的性別、年齡、職業、愛好等等。對用戶特徵的分析歸類上,可以根據需要使用分析IP位址、分析用戶端流覽器歷史資料、分析用戶端COOKIE資料、分析用戶網上註冊資訊等技術手段,這對本領域技術人員來說是容易瞭解的。
基於同一發明構思,本申請還提供了一種詞匹配方法及裝置、一種資訊查詢裝置,由於詞匹配方法及裝置、資訊查詢裝置與資訊查詢方法是基於同一發明構思,它們具有相似的原理,因此在詞匹配方法及裝置、資訊查詢裝置實施中可以參考資訊查詢方法的實施,重複之處不再贅述。
圖2為資訊查詢裝置結構示意圖,如圖所示,裝置中可以包括:第一查詢關鍵詞獲取模組201,用於獲取輸入的第一查詢關鍵詞;用戶回饋日誌獲取模組202,用於獲取第一查詢關鍵詞的用戶回饋日誌;匹配模組203,用於根據該用戶回饋日誌確定與第一查詢關鍵詞匹配的第二查詢關鍵詞;查詢結果回饋模組204,用於回饋以第二查詢關鍵詞為目標進行查詢的查詢結果。
實施中,用戶回饋日誌獲取模組可以進一步用於獲取包括歷次以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及歷次用戶對歷史查詢結果的點選頻率的用戶回饋日誌;匹配模組則可以進一步用於根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
實施中,用戶回饋日誌獲取模組可以進一步用於獲取包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率作為該點選頻率。
圖3為匹配模組結構示意圖,如圖所示,匹配模組可以包括:內容獲取單元2031,用於獲取第一關鍵詞的歷史查詢結果的內容;分詞單元2032,用於對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;匹配單元2033,用於根據分詞後的詞的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
在實施中,分詞單元還可以進一步用於在分詞後獲得下述方式的詞或者其組合:分詞後與第一查詢關鍵詞相鄰的詞;分詞後包含第一查詢關鍵詞的詞;分詞後包括第一查詢關鍵詞組成部分的詞。
實施中,匹配模組可以進一步用於在根據該歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞時,該點選頻率大於設定閾值。
圖4為第一查詢關鍵詞獲取模組結構示意圖,如圖所示,第一查詢關鍵詞獲取模組中可以包括:資訊內容獲取單元2011,用於獲取用戶輸入的資訊內容;分詞/分解單元2012,用於對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;第一查詢關鍵詞確定單元2013,用於將分詞後的詞及/或字作為第一查詢關鍵詞。
實施中,用戶回饋日誌獲取模組可以進一步用於獲取包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合的參數作為點選頻率。
實施中,第一查詢關鍵詞獲取模組可以進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵用戶特徵;用戶回饋日誌獲取模組可以進一步用於根據用戶特徵獲取用戶回饋日誌。
實施中,第一查詢關鍵詞獲取模組可以進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;用戶回饋日誌獲取模組還可以進一步用於在獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
實施中,第一查詢關鍵詞獲取模組還可以進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;匹配模組可以進一步用於在根據該用戶回饋日誌確定第二查詢關鍵詞時,根據用戶特徵確定第二查詢關鍵詞。
圖5為詞匹配方法實施流程示意圖,如圖所示,在進行詞匹配時可以包括如下步驟:步驟501、獲取待匹配詞;步驟502、根據待匹配詞獲取用戶回饋日誌,該用戶回饋日誌包括歷次以該待匹配詞為目標進行查詢的歷史查詢結果,以及歷次用戶對歷史查詢結果的點選頻率;步驟503、根據該歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞。
實施中,點選頻率可以包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率。
實施中,根據對歷史查詢結果的內容的點選頻率確定與待匹配詞匹配的詞,可以為:獲取待匹配詞的歷史查詢結果的內容;對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;根據分詞後的詞的點選頻率確定與待匹配詞匹配的詞。
實施中,分詞後的詞是指下述方式的詞或者其組合:分詞後與待匹配詞相鄰的詞;分詞後包含待匹配詞的詞;分詞後包括待匹配詞組成部分的詞。
實施中,在根據該歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞時,該點選頻率大於設定閾值。
獲取待匹配關鍵詞時,可以為:獲取用戶輸入的資訊內容;對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;將分詞後的詞及/或字作為待匹配詞。
實施中,點選頻率可以包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合。
實施中,還可以進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;獲取用戶回饋日誌時,根據用戶特徵獲取用戶回饋日誌。
實施中,還可以進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
實施中,還可以進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;根據用戶回饋日誌確定與待匹配詞匹配的詞時,根據該用戶特徵確定與待匹配詞匹配的詞。
圖6為詞匹配裝置結構示意圖,如圖所示,可以包括:待匹配詞獲取模組601,用於獲取待匹配詞;用戶回饋日誌獲取模組602,用於根據待匹配詞獲取用戶回饋日誌;匹配模組603,用於根據該用戶回饋日誌確定與待匹配詞匹配的詞。
實施中,用戶回饋日誌獲取模組可以進一步用於獲取包括歷次以該待匹配詞為目標進行查詢的歷史查詢結果,以及歷次用戶對歷史查詢結果的點選頻率的用戶回饋日誌;匹配模組可以進一步用於根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞。
用戶回饋日誌獲取模組可以進一步用於獲取包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率作為該點選頻率。
實施中,匹配模組可以包括:內容獲取單元,用於獲取待匹配詞的歷史查詢結果的內容;分詞單元,用於對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;匹配單元,用於根據分詞後的詞的點選頻率確定與待匹配詞匹配的詞。
分詞單元可以進一步用於在分詞後獲得下述方式的詞或者其組合:分詞後與待匹配詞相鄰的詞;分詞後包含待匹配詞的詞;分詞後包括待匹配詞組成部分的詞。
匹配模組可以進一步用於在根據該歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞時,該點選頻率大於設定閾值。
待匹配詞獲取模組可以包括:資訊內容獲取單元,用於獲取用戶輸入的資訊內容;分詞/分解單元,用於對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;待匹配詞確定單元,用於將分詞後的詞及/或字作為待匹配詞。
用戶回饋日誌獲取模組可以進一步用於獲取包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合的參數作為點選頻率。
實施中,待匹配詞獲取模組進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;用戶回饋日誌獲取模組進一步用於根據用戶特徵獲取用戶回饋日誌。
實施中,待匹配詞獲取模組可以進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;用戶回饋日誌獲取模組還可以進一步用於在獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
實施中,待匹配詞獲取模組還可以進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;匹配模組可以進一步用於在根據該用戶回饋日誌確定與待匹配詞匹配的詞時,根據該用戶特徵確定與待匹配詞匹配的詞。
由上述實施例可知,本申請實施中基於對用戶回饋日誌分析,因而能夠自動發現詞語的潛在語意,從而能夠準確發現詞之間的內在聯繫;進一步的,還利用自動發現詞語的潛在語意及將查詢詞的相關語意用來提高搜尋引擎的效果;進一步的,在自動發現查詢詞的潛在詞義時,還可以根據查詢詞前後單字的詞頻,而不是僅用分詞結果來達到類似的效果。因此,在本申請實施例中通過自動發現詞的潛在詞義提高搜尋引擎的性能,與傳統方式相比,能夠提高搜尋的精確度及效率;例如與現有技術中陸勇、侯漢清提到的詞義自動發現方法相比,其主要是通過已有的詞典資料作為抽取來源,樣本量在幾千條左右。如果它是以網際網路網頁等大資料量為基礎來抽取,就會缺乏準確性。而本申請實施中通過用戶參與的用戶回饋日誌,就可以非常可靠的自動發現查詢詞及查詢結果之間體現用戶意圖的潛在詞義關係,特別適合原來提高搜尋引擎的準確率及智慧。
為了描述的方便,描述以上系統時以功能分為各種模組或單元分別描述。當然,在實施本發明時可以把各模組或單元的功能在同一個或多個軟體及/或硬體中實現。
本領域內的技術人員應明白,本申請的實施例可提供為方法、系統、或電腦程式產品。因此,本申請可採用完全硬體實施例、完全軟體實施例、或結合軟體及硬體方面的實施例的形式。而且,本申請可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁盤記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
本申請是參照根據本申請實施例的方法、設備(系統)、及電腦程式產品的流程圖及/或方框圖來描述的。應理解可由電腦程式指令實現流程圖及/或方框圖中的每一流程及/或方框、以及流程圖及/或方框圖中的流程及/或方框的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理設備的處理器以產生一個機器,使得通過電腦或其他可編程資料處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可編程資料處理設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可編程資料處理設備上,使得在電腦或其他可編程設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程及/或方框圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本申請的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更及修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本申請範圍的所有變更及修改。
顯然,本領域的技術人員可以對本申請進行各種改動及變形而不脫離本申請的精神及範圍。這樣,倘若本申請的這些修改及變形屬於本申請申請專利範圍及其等同技術的範圍之內,則本申請也意圖包含這些改動及變形在內。
201...第一查詢關鍵詞獲取模組
202...用戶回饋日誌獲取模組
203...匹配模組
204...查詢結果回饋模組
2031...內容獲取單元
2032...分詞單元
2033...匹配單元
2011...資訊內容獲取單元
2012...分詞/分解單元
2013...第一查詢關鍵詞確定單元
601...待匹配詞獲取模組
602...用戶回饋日誌獲取模組
603...匹配模組
圖1為本申請實施例中資訊查詢方法實施流程示意圖;
圖2為本申請實施例中資訊查詢裝置結構示意圖;
圖3為本申請實施例中匹配模組結構示意圖;
圖4為本申請實施例中第一查詢關鍵詞獲取模組結構示意圖;
圖5為本申請實施例中詞匹配方法實施流程示意圖;
圖6為本申請實施例中詞匹配裝置結構示意圖。
Claims (48)
- 一種電腦執行的詞匹配方法,其特徵在於,包括如下步驟:獲取待匹配詞;根據待匹配詞獲取用戶回饋日誌;根據該用戶回饋日誌確定與待匹配詞匹配的詞。
- 如申請專利範圍第1項所述的方法,其中,該用戶回饋日誌包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率。
- 如申請專利範圍第2項所述的方法,其中,根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞。
- 如申請專利範圍第2或3項所述的方法,其中,該點選頻率包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率。
- 如申請專利範圍第4項所述的方法,其中,該根據對歷史查詢結果的內容的點選頻率確定與待匹配詞匹配的詞,包括:獲取待匹配詞的歷史查詢結果的內容;對歷史查詢結果的內容進行分詞處理獲得分詞後的詞 ;根據分詞後的詞的點選頻率確定與待匹配詞匹配的詞。
- 如申請專利範圍第5項所述的方法,其中,該分詞後的詞包括下述方式的詞或者其組合:分詞後與待匹配詞相鄰的詞;分詞後包含待匹配詞的詞;分詞後包括待匹配詞組成部分的詞。
- 如申請專利範圍第2項所述的方法,其中,在根據該歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞時,該點選頻率大於設定閾值。
- 如申請專利範圍第1項所述的方法,其中,該獲取待匹配詞,包括:獲取用戶輸入的資訊內容;對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;將分詞後的詞及/或字作為待匹配詞。
- 如申請專利範圍第2項所述的方法,其中,該點選頻率包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合。
- 如申請專利範圍第1項所述的方法,其中,進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵; 該獲取用戶回饋日誌時,根據該用戶特徵獲取用戶回饋日誌。
- 如申請專利範圍第1項所述的方法,其中,進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括所述用戶特徵。
- 如申請專利範圍第1項所述的方法,其中,進一步包括:在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該根據該用戶回饋日誌確定與待匹配詞匹配的詞時,根據該用戶特徵確定與待匹配詞匹配的詞。
- 一種詞匹配裝置,其特徵在於,包括:待匹配詞獲取模組,用於獲取待匹配詞;用戶回饋日誌獲取模組,用於根據待匹配詞獲取用戶回饋日誌;匹配模組,用於根據該用戶回饋日誌以及點選頻率確定與待匹配詞匹配的詞。
- 如申請專利範圍第13項所述的裝置,其中,該用戶回饋日誌獲取模組進一步用於獲取包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率的用戶回饋日誌。
- 如申請專利範圍第14項所述的裝置,其中,該匹配模組進一步用於根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞。
- 如申請專利範圍第14項所述的裝置,其中,該用戶回饋日誌獲取模組進一步用於獲取包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率作為該點選頻率。
- 如申請專利範圍第15項所述的裝置,其中,該匹配模組包括:內容獲取單元,用於獲取待匹配詞的歷史查詢結果的內容;分詞單元,用於對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;匹配單元,用於根據分詞後的詞的點選頻率確定與待匹配詞匹配的詞。
- 如申請專利範圍第17項所述的裝置,其中,該分詞單元進一步用於在分詞後獲得下述方式的詞或者其組合:分詞後與待匹配詞相鄰的詞;分詞後包含待匹配詞的詞;分詞後包括待匹配詞組成部分的詞。
- 如申請專利範圍第14至18項任一項所述的裝置,其中,該匹配模組進一步用於在根據該歷史查詢結果以及點選頻率確定與待匹配詞匹配的詞時,該點選頻率大於 設定閾值。
- 如申請專利範圍第13項所述的裝置,其中,該待匹配詞獲取模組包括:資訊內容獲取單元,用於獲取用戶輸入的資訊內容;分詞/分解單元,用於對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;待匹配詞確定單元,用於將分詞後的詞及/或字作為待匹配詞。
- 如申請專利範圍第13項所述的裝置,其中,該用戶回饋日誌獲取模組進一步用於獲取包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合的參數作為點選頻率。
- 如申請專利範圍第13項所述的裝置,其中,該待匹配詞獲取模組進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該用戶回饋日誌獲取模組進一步用於根據用戶特徵獲取用戶回饋日誌。
- 如申請專利範圍第13項所述的裝置,其中,該待匹配詞獲取模組進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該用戶回饋日誌獲取模組進一步用於在獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選 頻率,該歷史查詢結果包括該用戶特徵。
- 如申請專利範圍第13項所述的裝置,其中,該待匹配詞獲取模組進一步用於在用戶輸入待匹配詞時,獲取該用戶的用戶特徵;該匹配模組進一步用於在根據該用戶回饋日誌確定與待匹配詞匹配的詞時,根據該用戶特徵確定與待匹配詞匹配的詞。
- 一種資訊查詢方法,其特徵在於,包括如下步驟:獲取輸入的第一查詢關鍵詞;根據第一查詢關鍵詞獲取用戶回饋日誌;根據該用戶發饋日誌確定與第一查詢關鍵詞匹配的第二查詢關鍵詞;回饋以第二查詢關鍵詞為目標進行查詢的查詢結果。
- 如申請專利範圍第25項所述的方法,其中,該用戶回饋日誌包括以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率。
- 如申請專利範圍第26項所述的方法,其中,根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
- 如申請專利範圍第26或27項所述的方法,其中,該點選頻率包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率。
- 如申請專利範圍第28項所述的方法,其中,該 根據對歷史查詢結果的內容的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞,包括:獲取第一查詢關鍵詞的歷史查詢結果的內容;對歷史查詢結果的內容進行分詞處理獲得分詞後的詞;根據分詞後的詞的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
- 如申請專利範圍第29項所述的方法,其中,該分詞後的詞是指下述方式的詞或者其組合:分詞後與第一查詢關鍵詞相鄰的詞;分詞後包含第一查詢關鍵詞的詞;分詞後包括第一查詢關鍵詞組成部分的詞。
- 如申請專利範圍第26項所述的方法,其中,在根據該歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞時,該點選頻率大於設定閾值。
- 如申請專利範圍第25項所述的方法,其中,該獲取輸入的第一查詢關鍵詞,包括:獲取用戶輸入的資訊內容;對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;將分詞後的詞及/或字作為第一查詢關鍵詞。
- 如申請專利範圍第26項所述的方法,其中,該點選頻率包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的 重要度其中之一或者其組合。
- 如申請專利範圍第25項所述的方法,其中,進一步包括:在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵該獲取用戶回饋日誌時,根據該用戶的用戶特徵獲取用戶回饋日誌。
- 如申請專利範圍第25項所述的方法,其中,進一步包括:在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;該獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
- 如申請專利範圍第25項所述的方法,其中,進一步包括:在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵該根據該用戶回饋日誌確定第二查詢關鍵詞時,根據該用戶特徵確定第二查詢關鍵詞。
- 一種資訊查詢裝置,其特徵在於,包括:第一查詢關鍵詞獲取模組,用於獲取輸入的第一查詢關鍵詞; 用戶回饋日誌獲取模組,用於根據第一查詢關鍵詞獲取用戶回饋日誌;匹配模組,用於根據該用戶回饋日誌確定與第一查詢關鍵詞匹配的第二查詢關鍵詞;查詢結果回饋模組,用於回饋以第二查詢關鍵詞為目標進行查詢的查詢結果。
- 如申請專利範圍第37項所述的裝置,其中,用戶回饋日誌獲取模組進一步用於獲取包括以該第一查詢關鍵詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率的用戶回饋日誌。
- 如申請專利範圍第38項所述的裝置,其中,該匹配模組進一步用於根據該用戶回饋日誌中的歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
- 如申請專利範圍第38項所述的裝置,其中,該用戶回饋日誌獲取模組進一步用於獲取包括:對歷史查詢結果的點選頻率及/或對歷史查詢結果的內容的點選頻率作為該點選頻率。
- 如申請專利範圍第40項所述的裝置,其中,該匹配模組包括:內容獲取單元,用於獲取第一查詢關鍵詞的歷史查詢結果的內容;分詞單元,用於對歷史查詢結果的內容進行分詞處理獲得分詞後的詞; 匹配單元,用於根據分詞後的詞的點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞。
- 如申請專利範圍第41項所述的裝置,其中,該分詞單元進一步用於在分詞後獲得下述方式的詞或者其組合:分詞後與第一查詢關鍵詞相鄰的詞;分詞後包含第一查詢關鍵詞的詞;分詞後包括第一查詢關鍵詞組成部分的詞。
- 如申請專利範圍第37至40項任一項所述的裝置,其中,該匹配模組進一步用於在根據該歷史查詢結果以及點選頻率確定與第一查詢關鍵詞匹配的第二查詢關鍵詞時,該點選頻率大於設定閾值。
- 如申請專利範圍第37項所述的裝置,其中,該第一查詢關鍵詞獲取模組包括:資訊內容獲取單元,用於獲取用戶輸入的資訊內容;分詞/分解單元,用於對該資訊內容進行分詞處理後獲得分詞後的詞,及/或,將該資訊內容分解為字;第一查詢關鍵詞確定單元,用於將分詞後的詞及/或字作為第一查詢關鍵詞。
- 如申請專利範圍第37項所述的裝置,其中,該用戶回饋日誌獲取模組進一步用於獲取包括歷史查詢結果的點擊頻率、歷史查詢結果的曝光頻率、對歷史查詢結果的閱讀時間、歷史查詢結果的重要度其中之一或者其組合的參數作為點選頻率。
- 如申請專利範圍第37項所述的裝置,其中,該第一查詢關鍵詞獲取模組進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶特徵;該用戶回饋日誌獲取模組進一步用於根據用戶特徵獲取用戶回饋日誌。
- 如申請專利範圍第37項所述的裝置,其中,該第一查詢關鍵詞獲取模組進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶特徵;該用戶回饋日誌獲取模組進一步用於在獲取用戶回饋日誌時,獲取用戶回饋日誌中包括以該待匹配詞為目標進行查詢的歷史查詢結果,以及用戶對歷史查詢結果的點選頻率,該歷史查詢結果包括該用戶特徵。
- 如申請專利範圍第37項所述的裝置,其中,該第一查詢關鍵詞獲取模組進一步用於在用戶輸入第一查詢關鍵詞時,獲取該用戶的用戶特徵;該匹配模組進一步用於在根據該用戶回饋日誌確定第二查詢關鍵詞時,根據該用戶特徵確定第二查詢關鍵詞。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW98122781A TWI446191B (zh) | 2009-07-06 | 2009-07-06 | Word matching and information query method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW98122781A TWI446191B (zh) | 2009-07-06 | 2009-07-06 | Word matching and information query method and device |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201102842A TW201102842A (en) | 2011-01-16 |
TWI446191B true TWI446191B (zh) | 2014-07-21 |
Family
ID=44837625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW98122781A TWI446191B (zh) | 2009-07-06 | 2009-07-06 | Word matching and information query method and device |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI446191B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102810104B (zh) * | 2011-06-03 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 信息调整方法及装置 |
CN103914492B (zh) * | 2013-01-09 | 2018-02-27 | 阿里巴巴集团控股有限公司 | 查询词融合方法、商品信息发布方法和搜索方法及系统 |
CN110795550B (zh) * | 2019-10-31 | 2023-04-07 | 中山大学 | 一种提高闲聊对话系统回答丰富性的方法 |
TWI832562B (zh) * | 2022-11-16 | 2024-02-11 | 英業達股份有限公司 | 同義詞搜尋系統及方法 |
-
2009
- 2009-07-06 TW TW98122781A patent/TWI446191B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
TW201102842A (en) | 2011-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107993724B (zh) | 一种医学智能问答数据处理的方法及装置 | |
CN103838833B (zh) | 基于相关词语语义分析的全文检索系统 | |
Rahman et al. | Effective reformulation of query for code search using crowdsourced knowledge and extra-large data analytics | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US9558263B2 (en) | Identifying and displaying relationships between candidate answers | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
US9361386B2 (en) | Clarification of submitted questions in a question and answer system | |
CN110019658B (zh) | 检索项的生成方法及相关装置 | |
TWI544351B (zh) | Extended query method and system | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
CN103049470B (zh) | 基于情感相关度的观点检索方法 | |
CN101464897A (zh) | 一种词匹配及信息查询方法及装置 | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
US11204920B2 (en) | Utilizing search engine relevancy ranking models to generate normalized and comparable search engine scores | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
CN116450772A (zh) | 一种检索结果智能推荐方法、装置及统一检索方法 | |
TWI446191B (zh) | Word matching and information query method and device | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Juan | An effective similarity measurement for FAQ question answering system | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
Hegde et al. | An entity-centric approach for overcoming knowledge graph sparsity | |
JP2003085181A (ja) | 事典システム | |
TWI471739B (zh) | A method for identifying a synonym, a device, and a method and apparatus for searching it | |
CN106708808B (zh) | 一种信息挖掘方法及装置 | |
Al-Hamami et al. | Development of an opinion blog mining system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |