TWI484356B - Retrieval methods, devices and systems - Google Patents

Retrieval methods, devices and systems Download PDF

Info

Publication number
TWI484356B
TWI484356B TW099100277A TW99100277A TWI484356B TW I484356 B TWI484356 B TW I484356B TW 099100277 A TW099100277 A TW 099100277A TW 99100277 A TW99100277 A TW 99100277A TW I484356 B TWI484356 B TW I484356B
Authority
TW
Taiwan
Prior art keywords
data
query data
candidate
rewriting
query
Prior art date
Application number
TW099100277A
Other languages
English (en)
Other versions
TW201124862A (en
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to TW099100277A priority Critical patent/TWI484356B/zh
Publication of TW201124862A publication Critical patent/TW201124862A/zh
Application granted granted Critical
Publication of TWI484356B publication Critical patent/TWI484356B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

檢索方法、裝置和系統
本發明係有關網路資料處理領域,特別有關一種檢索方法、裝置和系統。
搜索引擎(search engine)是指根據一定的策略、運用特定的電腦程式搜集網際網路上的資訊,在對資訊進行組織和處理後,為用戶提供檢索服務的系統。從用戶的角度看,搜索引擎提供一個包含搜索框的頁面,在搜索框輸入關鍵字語,藉由瀏覽器提交給搜索引擎後,搜索引擎就會返回跟用戶輸入的內容相關的資訊列表。用戶輸入的關鍵字語可以成為查詢資料,即是用戶藉由查詢資料來查詢自己感興趣的相關內容。
在實際應用中,用戶輸入的查詢資料有時候並不能檢索到相關的內容,例如,當用戶的查詢資料為“黑色聯想thinkpad筆記本X60”時,由於輸入的查詢關鍵字過長,搜索引擎無法檢索到與其完全匹配的查詢結果,因此,瀏覽器就會返回檢索無結果,當查詢資料變為“聯想thinkpad筆記本X60”,由於輸入的查詢關鍵字縮短了,檢索就會出現相關結果,因此,現有技術中存在一種基於規則的檢索方法,首先對查詢資料進行分詞,然後根據分詞後每個詞的詞性,例如:是名詞還是形容詞,類型,例如:產品類型、品牌、型號等,以及這些詞本身的資訊,根據需要總結一定的規則,例如,某一條規則為:兩個產品類型詞相鄰,則後者權重更高。例如,“手機充電器”,則可以理解為“充電器”的權重更高。藉由上述基於一系列規則的查詢改寫方法,可以將原始的查詢資料改寫成新的查詢資料,再由搜索引擎的伺服器依據新的查詢資料進行檢索。
從上述過程中可以看出,搜索引擎在檢索的時候,是採用基於一定的規則對查詢資料進行改寫的方法,因為每一次的改寫操作都需要基於相關的規則,因為規則是工作人員預先制定的,而用戶在瀏覽器上輸入的查詢資料有無數種,這就使得單純的依據規則改寫查詢資料的方式錯誤率較高,同時也存在歧義,所以對查詢資料進行改寫的結果有時並不精確,基於並不準確的改寫查詢資料檢索到的結果也可能並不是用戶所需要的,就降低了用戶對於搜索引擎的使用體驗。
總之,目前需要本領域技術人員迫切解決的一個技術問題就是:如何能夠創新的提出一種檢索方法,以解決現有技術中基於規則進行查詢資料的改寫之後再進行檢索操作,導致的檢索結果不準確的問題。
本申請案所要解決的技術問題在於提供一種檢索方法,用以解決現有技術中需要基於規則進行查詢資料的改寫,導致的檢索結果不準確的問題,進一步地,還能夠提升相關性和召回率。
本申請案還提供了一種檢索裝置,用以保證上述方法在實際中的實施及應用。
為了解決上述問題,本申請案揭示一種檢索方法,包括:針對目前查詢資料,改寫資料系統在預置的資料庫中匹配獲得與所述目前查詢資料相關的候選查詢資料;改寫資料系統提取所述目前查詢資料和候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和候選查詢資料的匹配結果;改寫資料系統根據所述匹配結果來判斷是否需要改寫所述目前查詢資料,如果是,則根據所述匹配結果而對所述目前查詢資料進行改寫;搜索引擎按照所述改寫後的目前查詢資料進行檢索。
較佳的是,所述改寫資料系統在預置的資料庫中匹配獲得候選查詢資料,具體為:改寫資料系統在預置的資料庫中匹配獲取至少兩個候選查詢資料,所述改寫資料系統根據所述匹配結果判斷是否需要改寫所述目前查詢資料,具體包括:改寫資料系統根據所述匹配結果為所述特徵賦值,每一個特徵對應一個特徵值;改寫資料系統按照預置規則對所述特徵值進行處理,獲得到與所述至少兩個候選查詢資料對應的至少兩個匹配結果值;改寫資料系統判斷所述至少兩個匹配結果值中最大的匹配結果值是否大於某一閾值。
較佳的是,所述改寫資料系統在預置的資料庫中匹配獲取候選查詢資料,具體為:改寫資料系統在預置的資料庫中匹配獲取一個候選查詢資料,所述改寫資料系統根據所述匹配結果來判斷是否需要改寫所述目前查詢資料,具體包括:改寫資料系統根據所述匹配結果為所述一個候選查詢資料與所述目前查詢資料的特徵賦值;改寫資料系統按照預置規則而對所述特徵值進行處理,獲得到與所述一個候選查詢資料對應的一個匹配結果值;改寫資料系統判斷所述一個匹配結果值是否大於某一閾值。
較佳的是,所述改寫資料系統按照預置規則而對所述特徵值進行處理,具體包括:改寫資料系統按照線性加權的方式對所述特徵值進行處理,或者按照最大熵模型將所述特徵值轉換為所述匹配結果值。
較佳的是,所述預置的資料庫中還包括與所述歷史查詢資料對應的查詢結果,則當所述改寫資料系統根據所述匹配結果來判斷是否需要改寫所述目前查詢資料的結果為是之後,還包括:改寫資料系統判斷所述匹配結果對應的候選查詢資料是否有對應的查詢結果,如果是,則執行根據所述匹配結果對所述目前查詢資料進行改寫的步驟。
較佳的是,所述改寫資料系統在預置的資料庫中匹配獲得候選查詢資料,具體包括:改寫資料系統將所述目前查詢資料進行分詞,並為分詞後的每個子查詢資料設置標識;改寫資料系統依據所述子查詢資料的標識和分詞結果而在所述預置的資料庫中進行匹配,從而獲得候選查詢資料。
較佳的是,所述改寫資料系統提取所述目前查詢資料和候選查詢資料的特徵,具體包括:改寫資料系統將所述目前查詢資料的子查詢資料與候選查詢資料進行比對;按照比對的結果,改寫資料系統獲得出所述子查詢資料與候選查詢資料的匹配結果。
較佳的是,所述搜索引擎按照所述改寫後的目前查詢資料進行檢索之後,還包括:搜索引擎將檢索結果向用戶端展示。
獲取模組,用以針對目前查詢資料,在預置的資料庫中匹配獲得與所述目前查詢資料相關的候選查詢資料;提取特徵模組,用以提取所述目前查詢資料和候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和候選查詢資料的匹配結果;第一判斷模組,用以根據所述匹配結果來判斷是否需要改寫所述目前查詢資料;改寫模組,用以根據所述匹配結果而對所述目前查詢資料進行改寫;檢索模組,用以根據所述改寫模組的結果進行檢索。
較佳的是,所述獲取模組具體用以在預置的資料庫中匹配獲取至少兩個候選查詢資料,則所述第一判斷模組,具體包括:第一賦值子模組,用以根據所述匹配結果為所述特徵賦值,每一個特徵對應一個特徵值;第一處理子模組,用以按照預置規則而對所述特徵值進行處理,獲得到與所述至少兩個候選查詢資料對應的至少兩個匹配結果值;第一判斷子模組,用以判斷所述至少兩個匹配結果值中最大的匹配結果值是否大於某一閾值。
較佳的是,所述獲取模組,具體用於:在預置的資料庫中匹配獲取一個候選查詢資料,則所述第一判斷模組,具體包括:第二賦值子模組,用以根據所述匹配結果為所述一個候選查詢資料與所述目前查詢資料的特徵賦值;第二處理子模組,用以按照預置規則而對所述特徵值進行處理,獲得到與所述一個候選查詢資料對應的一個匹配結果值;第二判斷子模組,用以判斷所述一個匹配結果值是否大於某一閾值。
較佳的是,所述第一處理子模組或第二處理子模組,具體用以按照線性加權的方式而對所述特徵值進行處理,或者按照最大熵模型將所述特徵值轉換為所述匹配結果值。
較佳的是,所述預置的資料庫中還包括與所述歷史查詢資料對應的查詢結果,則所述裝置,還包括:第二判斷模組,用於判斷所述匹配結果對應的候選查詢資料是否有對應的查詢結果;執行模組,用以當所述第二判斷模組的結果為是時,執行根據所述匹配結果而對所述目前查詢資料進行改寫的步驟。
較佳的是,所述獲取模組,具體包括:分詞子模組,用以將所述目前查詢資料進行分詞,並為分詞後的每個子查詢資料設置標識;匹配子模組,用以依據所述子查詢資料的標識和分詞結果而在所述預置的資料庫中進行匹配,從而獲得候選查詢資料。
較佳的是,所述提取特徵模組,具體包括:比對子模組,用以將所述目前查詢資料的子查詢資料與候選查詢資料進行比對;獲取匹配結果子模組,用以按照比對的結果,獲得出所述子查詢資料與候選查詢資料的匹配結果。
較佳的是,所述裝置還包括:結果展示模組,用以將檢索結果向用戶端展示。
本申請案還提供了一種檢索系統,該系統包括:改寫資料系統,用以針對目前查詢資料,在預置的資料庫中匹配獲得與所述目前查詢資料相關的候選查詢資料;並提取所述目前查詢資料和候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和候選查詢資料的匹配結果;然後根據所述匹配結果來判斷是否需要改寫所述目前查詢資料,如果是,則根據所述匹配結果而對所述目前查詢資料進行改寫;搜索引擎,用以根據所述改寫資料系統的結果進行檢索。
與現有技術相比,本申請案包括以下優點:在本申請案中,藉由搜索引擎伺服器端預置的資料庫,可以匹配一系列的候選查詢資料,所述候選查詢資料為與目前查詢資料相關的歷史查詢資料,再在伺服器端獲取到目前查詢資料與候選查詢資料的匹配結果,並從所述候選查詢資料中查詢出最優的一個候選查詢資料,從而對目前查詢資料進行改寫,能夠使得伺服器將改寫後的目前查詢資料作為關鍵字進行檢索,從而避免採用現有技術中在檢索之前改寫目前查詢資料時依據固定規則的方式,降低了檢索過程中出現歧義的機率,提升了檢索的準確度;進一步地,本申請案還可以提高對目前查詢資料的檢索結果的相關性和召回率。當然,實施本申請案的任一產品並不一定需要同時達到以上所述的所有優點。
下面將結合本申請案實施例中的附圖,對本申請案實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請案的一部分實施例,而不是全部的實施例。基於本申請案中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本申請案保護的範圍。
本申請案可用於眾多通用或專用的計算裝置環境或配置中。例如:個人電腦、伺服器電腦、手持設備或可攜式設備、平板型設備、多處理器裝置、包括以上任何裝置或設備的分散式計算環境等等。
本申請案可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般而言,程式模組包括執行特定任務或實施特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式計算環境中實施本申請案,在這些分散式計算環境中,由經由通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦存儲媒體中。
本申請案在實際應用中的系統結構,可以包括預置的資料庫、查詢日誌、改寫資料系統、搜索引擎以及用戶端,搜索引擎接收到用戶輸入的目前查詢資料之後,遞交至所述改寫資料系統,由所述改寫資料系統將其在預置的資料庫中進行匹配,能夠獲得與目前查詢資料相關的歷史查詢資料,即是候選查詢資料,再藉由對所述目前查詢資料以及候選查詢資料提取特徵,所述特徵用以表示目前查詢資料和候選查詢資料的匹配結果,並判斷所述匹配結果是否表示需要改寫所述目前查詢資料,如果是,就根據所述匹配結果對所述目前查詢資料進行改寫,並由搜索引擎根據所述改寫後的目前查詢資料進行檢索。其中,所述預置的資料庫保存用戶端的歷史查詢資料,可以採用查詢日誌來實施,也可以採用其他方式。搜索引擎在基於這種改寫後的查詢資料進行檢索時,就提高了準確度以及結果的召回率,所述召回率即是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率。
本申請案的主要思想應用於實體時,可以用獲取模組、提取特徵模組、第一判斷模組、改寫模組和檢索模組來實施,其中,所述獲取模組用於針對目前查詢資料,在預置的資料庫中匹配獲得與所述目前查詢資料相關的候選查詢資料;所述提取特徵模組,用以提取所述目前查詢資料和候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和候選查詢資料的匹配結果;所述第一判斷模組用以根據所述匹配結果來判斷是否需要改寫所述目前查詢資料;所述改寫模組,用以根據所述匹配結果而對所述目前查詢資料進行改寫;所述檢索模組,用以根據所述改寫模組的結果進行檢索。採用該實體,也可以在基於這種改寫後的查詢資料進行檢索時,提高準確度以及結果的召回率。
參考圖1,示出了本申請案一種檢索方法實施例1的流程圖,可以包括以下步驟:步驟101:針對目前查詢資料,改寫資料系統在預置的資料庫中匹配獲得至少兩個與所述目前查詢資料相關的候選查詢資料;其中,所述資料庫用以保存用戶端的歷史查詢資料,所述候選查詢資料為與所述目前查詢資料相關的歷史查詢資料;所述預置的資料庫可以藉由搜索引擎的查詢日誌來實施,所述查詢日誌是搜索引擎收集的用戶端的查詢資料和查詢結果的日誌資訊,即是用戶端的歷史查詢資料,所述資料庫中還可以記錄查詢結果的點擊頻率,曝光率等詳細資訊;當然,也可以採用所述查詢日誌中的資料內容重新建立新的資料庫;在本實施例中,改寫資料系統匹配獲取的候選查詢資料有至少兩個;其中,匹配獲得的每一個候選查詢資料的內容,和所述目前查詢資料的內容至少具有一個共同的短語或分詞;步驟102:改寫資料系統提取所述目前查詢資料和至少兩個候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和每一個候選查詢資料的匹配結果;改寫資料系統在獲取到至少兩個候選查詢資料之後,將所述目前查詢資料和至少兩個候選查詢資料一一進行匹配,從而提取出所述目前查詢資料與每一個候選查詢資料的特徵;所述特徵的含義,可以例如,所述目前查詢資料與其中一個候選查詢資料中,“品牌的匹配個數”,例如:諾基亞的匹配個數,即是目前查詢資料和候選查詢資料中是否都出現了諾基亞這個品牌名稱,如果都出現,則後續為該特徵賦值的時候就賦值為1,如果沒有,則賦值為0;“產品的匹配個數”,例如:手機的匹配個數,等等,這些描述兩者的匹配結果的語句,即是所述特徵的具體內容;步驟103:改寫資料系統根據所述匹配結果為所述特徵賦值,每一個特徵對應一個特徵值;根據匹配結果為所述特徵賦值,例如,所述目前查詢資料與其中一個候選查詢資料中,特徵“品牌的匹配個數”為1,即是所述目前查詢資料與候選查詢資料中都包括了某個品牌的名稱,且各出現一次,則該特徵的特徵值即是1;其中,賦值之後每一個特徵對應一個特徵值;步驟104:改寫資料系統按照預置規則而對所述候選查詢資料的所有特徵值進行處理,獲得到與所述至少兩個候選查詢資料對應的至少兩個匹配結果值;其中,所述預置規則可以是滿足某種線性加權規則,也可以採用最大熵模型實施,即是利用最大熵模型等概率模型將所述特徵值轉換為所述匹配結果值;預置規則可以根據實際需求預先指定;改寫資料系統按照該預置規則而對所述特徵值進行處理,即是對每一個候選查詢資料對應的一系列特徵值進行數學運算,從而針對每一個候選查詢資料獲得到與之對應的每一個匹配結果值;其中,所述匹配結果值在實際中可以具體為任意數值,例如,可以是0.8或0.6等小數,也可以是2或5等整數;需要說明的是,在本申請案中,運用最大熵模型可以得到更優的結果;步驟105:改寫資料系統判斷所述至少兩個匹配結果值中最大的匹配結果值是否大於某一閾值,如果是,則進入步驟106,如果否,則不做處理;本步驟即是由改寫資料系統根據所述匹配結果來判斷是否需要改寫所述目前查詢資料;可以預先為改寫資料系統指定某一個閾值,並由改寫資料系統判斷匹配結果值中最大的那一個是否大於該閾值,如果是,則表示該匹配結果值對應的候選查詢資料要優於目前查詢資料,其中,“優於目前查詢資料”可以理解為該候選查詢資料與目前查詢資料的匹配程度相對較高,並且該候選查詢資料中包含的不必要的詞更少;該閾值實際中可以為0.9等,當閾值為0.9時,表示當某個候選查詢資料與目前查詢資料的匹配結果值最大且達到0.9以上時,就認為目前查詢資料需要進行改寫,即改寫為該候選查詢資料;其中,該閾值的設定可以根據匹配結果值動態進行修改;步驟106:改寫資料系統根據所述匹配結果值選取相應的候選查詢資料而對所述目前查詢資料進行改寫,並且搜索引擎按照所述改寫後的目前查詢資料進行檢索。
將原來用戶端的目前查詢資料改寫為該候選查詢資料,所述候選查詢資料對應的匹配結果值最大,且大於預置的一個閾值。後續伺服器直接根據改寫後的目前查詢資料進行檢索。
與現有技術中基於規則改寫查詢資料再進行檢索的方法相比,本實施例中的技術方案不再利用人工制定的固定規則,直接根據搜索引擎的查詢日誌既可以創建預置的資料庫,當然用戶也可以自主設置該資料庫的內容並進行更新,這樣針對用戶不同的查詢資料,就可以藉由匹配出的候選查詢資料而對其進行改寫,利用改寫後的查詢資料進行檢索時,因為沒有依據單一固定的規則,不僅可以使得這種檢索的方法能夠獲得更高的準確性,避免了採用規則時產生的歧義,還可以提升檢索結果的召回率。
參考圖2,示出了本申請案的一種檢索方法實施例2的流程圖,可以包括以下步驟:步驟201:針對目前查詢資料,改寫資料系統在預置的資料庫中匹配獲得一個與所述目前查詢資料相關的候選查詢資料;在本實施例中,針對目前查詢資料,改寫資料系統在預置的資料庫中匹配獲得了僅僅一個候選查詢資料;同時,改寫資料系統還可以獲得與該候選查詢資料對應的查詢結果,該查詢結果可以是網頁ID等資訊;步驟202:改寫資料系統提取所述目前查詢資料和候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和候選查詢資料的匹配結果;改寫資料系統在提取該候選查詢資料和目前查詢資料的特徵時,可以將目前查詢資料與該一個候選查詢資料進行匹配,獲得所述目前查詢資料與該候選查詢資料的特徵;例如,所述目前查詢資料與該候選查詢資料中,品牌的匹配個數,產品的匹配個數等;步驟203:改寫資料系統根據所述匹配結果為所述一個候選查詢資料與所述目前查詢資料的特徵賦值;改寫資料系統根據匹配結果為所述特徵賦值,例如,所述目前查詢資料與該候選查詢資料中,產品的匹配個數為1,即是所述目前查詢資料與候選查詢資料中都包括了具體產品的名稱,且各出現一次,例如,“手機”,則該特徵的特徵值即是1;其中,賦值之後該候選查詢資料與目前查詢資料的每一個特徵對應一個特徵值,獲得所有候選查詢資料與目前查詢資料匹配之後的特徵值集合;步驟204:改寫資料系統按照預置規則而對所述特徵值進行處理,獲得到與所述一個候選查詢資料對應的一個匹配結果值;改寫資料系統可以對所述特徵值集合進行線性加權處理,當然,也可以採用概率模型進行統計,例如,最大熵模型,隱馬爾科夫模型,最大熵隱馬爾科夫模型,條件隨機場模型等;改寫資料系統按照線性加權的方式而對所述特徵值進行處理,或者按照最大熵模型將所述特徵值轉換為所述匹配結果值;步驟205:改寫資料系統判斷所述一個匹配結果值是否大於某一閾值,當結果為否時,不做處理,當結果為是時,進入步驟206;當本步驟的結果為是時,則表示該匹配結果值對應的候選查詢資料要優於目前查詢資料;步驟206:改寫資料系統判斷在所述資料庫中是否有與所述候選查詢資料對應的查詢結果,當結果為否時,不做處理,當結果為是時,進入步驟207;在本實施例中,還可以由改寫資料系統判斷在所述預置的資料庫中,所述匹配結果值對應的候選查詢資料是否有對應的查詢結果;如果有查詢結果,則表示該候選查詢資料能檢索到相關的結果;這樣當伺服器按照該候選查詢資料進行檢索的時候,就提高了召回率;步驟207:改寫資料系統將所述目前查詢資料改寫為所述一個候選查詢資料,並由搜索引擎按照所述一個候選查詢資料進行檢索。
當所述步驟206的結果為是時,表示這一個候選查詢資料一定能夠使得搜索引擎根據該資料檢索到相關的結果,這樣就能夠在後續伺服器進行檢索之後,將相關的檢索結果展示給用戶,因此,將目前查詢資料改寫為所述候選查詢資料,並按照所述一個候選查詢資料進行檢索。
在本實施例中,在搜索引擎的伺服器中預置的資料庫中匹配獲取到的候選查詢資料僅有一個,則在所述方法的執行過程中,僅將目前查詢資料與該一個候選查詢進行特徵的提取,並計算兩者的匹配結果值,進而根據所述匹配結果值是否大於預先指定的閾值來判斷所述候選查詢資料是否優於目前查詢資料,並且同時還判斷該候選查詢資料是否對應有檢索結果,如果有,則搜索引擎的伺服器默認根據該候選查詢資料進行檢索。藉由這種對檢索結果也進行判斷的方法,不僅比現有技術中基於規則改寫查詢資料再進行檢索的方法更具有準確性,還可以提高對檢索結果的召回率。
參考圖3,示出了本申請案的一種檢索方法實施例3的流程圖,本實施例可以理解為將本申請案的檢索方法應用於實際中的一個具體例子,可以包括以下步驟:步驟301:改寫資料系統將用戶端的目前查詢資料進行分詞,並為分詞後的每個子查詢資料設置標識;在本步驟中,改寫資料系統可以利用分詞器對目前查詢資料進行分詞,同時為分詞後的每個子查詢資料設置標識;例如:目前查詢資料為“紅色諾基亞n95手機”,進行分詞並設置標識後為:“紅色(修飾詞)/諾基亞(品牌)/n95(型號)/手機(產品類型)”;其中,紅色就是一個子查詢資料,修飾詞即是該子查詢資料的標識;步驟302:改寫資料系統依據所述子查詢資料的標識和分詞結果在所述預置的資料庫中進行匹配,從而獲得兩個候選查詢資料,所述資料庫用於保存用戶端的歷史查詢資料,所述候選查詢資料為與所述目前查詢資料相關的歷史查詢資料;改寫資料系統依據所述子查詢資料的標識在預置的資料庫中進行匹配,在歷史查詢資料中獲取到了候選查詢資料:“諾基亞n95手機”,“紅色諾基亞手機”;具體上,例如“紅色諾基亞n95手機”在資料庫中儲存形式可以如下所示:
當然,候選查詢資料在資料庫中的儲存形式並不影響本申請案實施例的實施,也可以採用其他的儲存形式來儲存候選查詢資料;步驟303:改寫資料系統將所述目前查詢資料的子查詢資料與候選查詢資料進行比對;將所述子查詢資料與候選查詢資料進行比對,在本實施例中即是將“紅色”、“諾基亞”和“手機”等,分別與“諾基亞n95手機”,“紅色諾基亞手機”進行比對;步驟304:按照比對的結果,改寫資料系統得出所述子查詢資料分別與兩個候選查詢資料的匹配結果;按照比對的結果,可以得到目前查詢資料“紅色諾基亞n95手機”與“諾基亞n95手機”的特徵為“修飾詞的匹配個數”,“品牌的匹配個數”,“型號的匹配個數”,以及“產品的匹配個數”,這些特徵可以表示出目前查詢資料與兩個候選查詢資料的匹配結果;步驟305:改寫資料系統根據所述匹配結果為所述特徵賦值,每一個特徵對應一個特徵值;在本實施例中,對於候選查詢資料“諾基亞n95手機”,特徵分別為:修飾詞的匹配個數,品牌的匹配個數,型號的匹配個數,以及產品的匹配個數,則該候選查詢資料與目前查詢資料匹配之後的特徵值分別為0,1,1,以及1;對於每個候選查詢資料,每一個特徵對應一個特徵值;步驟306:改寫資料系統按照預置規則而對所述特徵值進行處理,獲得到與所述兩個候選查詢資料對應的兩個匹配結果值;其中,所述預置規則可以是按照簡單的線性模型進行計算,亦即把所有的特徵值加權起來算匹配結果值,也可以是比較複雜的概率模型,例如,最大熵模型,本步驟中計算出的結果表示兩個候選查詢資料的匹配結果值,例如,候選查詢資料“諾基亞n95手機”按照最大熵模型計算出的匹配結果值為0.95,第二個候選查詢資料“紅色諾基亞手機”的匹配結果值為0.8;步驟307:改寫資料系統判斷較大的一個匹配結果值是否大於某一閾值,當結果為否時,不做處理,當結果為是時,則進入步驟308;同時,改寫資料系統可以預先指定一個閾值,例如在本實施例中為0.9,該閾值可以表示當匹配結果值大於該閾值時,對應的那個候選查詢資料就是最優的一個候選查詢資料;需要說明的是,在實際應用中,還可以設置一個最低閾值,即是當所有的匹配結果值都小於這個最低閾值時,則不對目前查詢資料進行改寫操作,同時,當所有的匹配結果值都小於設置的某個最高閾值時,則也不對目前查詢資料進行改寫操作;步驟308:改寫資料系統將所述目前查詢資料改寫為所述候選查詢資料;則根據前面的判斷結果可以得知,第一個候選查詢資料要優於目前查詢資料,則在本實施例中將目前查詢資料“紅色諾基亞n95手機”改寫為“諾基亞n95手機”;步驟309:搜索引擎按照所述改寫後的目前查詢資料進行檢索,並將檢索結果向用戶端展示。
在搜索引擎伺服器端可以直接按照改寫後的目前查詢資料,即是第一個候選查詢資料“諾基亞n95手機”進行檢索,並將檢索到的結果向用戶端展示。
需要說明的是,在本實施例中,在提取目前查詢資料與候選查詢資料之間的特徵,或者為所述特徵賦值時,本實施例雖然舉出了具體的數值,但是在實際中並不限於某一個或某些數值,本領域技術人員採用任何方式對所述特徵進行賦值,或者根據特徵值計算匹配結果值時,本申請案並不局限於某種方法,例如,僅僅採用線性加權,或者最大熵模型等,任何能夠計算出與實際情況相吻合的匹配結果值的方法都屬於本申請案的保護範疇。
對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請案並不受所描述的動作順序的限制,因為依據本申請案,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作和模組並不一定是本申請案所必須的。
與上述本申請案的一種檢索方法實施例1所提供的方法相對應,參見圖4,本申請案還提供了一種檢索裝置實施例1,在本實施例中,該裝置可以包括:獲取模組401,具體用以針對目前查詢資料,在預置的資料庫中匹配獲得至少兩個與所述目前查詢資料相關的候選查詢資料;其中,在搜索引擎伺服器端可以預置一個資料庫,用以保存用戶端過的歷史查詢資料,該資料庫中的歷史查詢資料的獲取可以藉由查詢日誌,所述查詢日誌是搜索引擎用來收集用戶端的查詢資料和查詢結果的日誌資訊,還可以記錄查詢結果的點擊頻率,曝光率等詳細資訊;提取特徵模組402,用以提取所述目前查詢資料和候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和候選查詢資料的匹配結果;所述提取特徵模組402,在獲取到至少兩個候選查詢資料之後,將所述目前查詢資料和至少兩個候選查詢資料一一進行匹配,從而提取出所述目前查詢與每一個候選查詢資料的特徵;所述特徵,例如,所述目前查詢資料與其中一個候選查詢資料中,品牌的匹配個數,產品的匹配個數等;第一賦值子模組403,用以根據所述匹配結果為所述特徵賦值,每一個特徵對應一個特徵值;所述第一賦值子模組403根據匹配結果為所述特徵賦值,例如,所述目前查詢資料與其中一個候選查詢資料中,品牌的匹配個數為1,即是所述目前查詢資料與候選查詢資料中都包括了某個品牌的名稱,且各出現一次,則該特徵的特徵值即是1;其中,賦值之後每一個特徵對應一個特徵值;第一處理子模組404,用以按照預置規則對所述特徵值進行處理,獲得到與所述至少兩個候選查詢資料對應的至少兩個匹配結果值;其中,所述第一處理子模組404依據的預置規則可以是某種線性加權規則,或者最大熵模型等概率模型將所述特徵值轉換為所述匹配結果值;預置規則可以根據實際需求預先指定;具體上,所述第一處理子模組404可以用以按照線性加權的方式而對所述特徵值進行處理,或者按照最大熵模型將所述特徵值轉換為所述匹配結果值。
第一判斷子模組405,用以判斷所述至少兩個匹配結果值中最大的匹配結果值是否大於某一閾值;如果所述第一判斷子模組405的判斷如果為是,則表示該匹配結果值對應的候選查詢資料要優於目前查詢資料;改寫模組406,用以根據所述匹配結果對所述目前查詢資料進行改寫;檢索模組407,用以根據所述改寫模組的結果進行檢索。
本實施例所述的裝置可以集成到搜索引擎的伺服器上,也可以單獨作為一個實體與搜索引擎伺服器相連,另外,需要說明的是,當本申請案所述的方法採用軟體實施時,可以作為搜索引擎的伺服器新增的一個功能,也可以單獨編寫相應的程式,本申請案不限定所述方法或裝置的實施方式。
本實施例中,運用所述裝置對查詢資料進行改寫並根據改寫後的查詢資料檢索,無需人工制定單一固定的規則,直接根據搜索引擎的查詢日誌既可以創建預置的資料庫,當然用戶也可以自主設置該資料庫的內容並進行更新,這樣就能夠獲得更高的準確性,避免了採用規則時產生的歧義,還可以提升檢索結果的召回率。
與上述本申請案的一種檢索方法實施例2所提供的方法相對應,參見圖5,本申請案還提供了一種檢索裝置的較佳實施例2,在本實施例中,該裝置具體可以包括:獲取模組501,具體用以針對目前查詢資料,在預置的資料庫中匹配獲得一個與所述目前查詢資料相關的候選查詢資料;在本實施例中,所述獲取模組501在預置的資料庫中獲取到的候選查詢資料僅有一個;提取特徵模組502,用以提取所述目前查詢資料和候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和一個候選查詢資料的匹配結果;第二賦值子模組503,用以根據所述匹配結果為所述一個候選查詢資料與所述目前查詢資料的特徵賦值;第二處理子模組504,用於按照預置規則而對所述特徵值進行處理,獲得到與所述一個候選查詢資料對應的一個匹配結果值;第二判斷子模組505,用以判斷所述一個匹配結果值是否大於某一閾值;第二判斷模組506,用以判斷在所述資料庫中是否有與所述候選查詢資料對應的查詢結果;在本實施例中,可以由所述第二判斷模組506用來判斷在所述預置的資料庫中,所述匹配結果值對應的候選查詢資料是否有對應的查詢結果;如果有查詢結果,則表示該候選查詢資料能檢索到相關的結果;執行模組507,用以當所述第二判斷模組的結果為是時,執行將所述目前查詢資料改寫為所述候選查詢資料的步驟;檢索模組508,用以根據所述改寫模組的結果進行檢索。
在本實施例中,藉由由所述第二判斷模組506對檢索結果也進行判斷的操作,當所述候選查詢資料有相關的檢索結果再對目前查詢資料進行改寫,不僅比現有技術中基於規則改寫查詢資料再進行檢索的方法更具有準確性,還可以提高對檢索結果的召回率。
與上述本申請案的一種檢索方法實施例3所提供的方法相對應,參見圖6,本申請案還提供了一種檢索裝置的實施例3,在本實施例中,該裝置具體可以包括:分詞子模組601,用以將所述目前查詢資料進行分詞,並為分詞後的每個子查詢資料設置標識;其中所述分詞子模組601在實際中可以採用分詞器實施;匹配子模組602,用以依據所述子查詢資料的標識在所述預置的資料庫中進行匹配,從而獲得候選查詢資料;比對子模組603,用以將所述目前查詢資料的子查詢資料與候選查詢資料進行比對;獲取匹配結果子模組604,用以按照比對的結果,得出所述子查詢資料與候選查詢資料的匹配結果;第一判斷模組605,用以判斷所述匹配結果是否表示需要改寫所述目前查詢資料;改寫模組606,用以將所述目前查詢資料改寫為所述候選查詢資料;檢索模組607,用以根據所述改寫模組的結果進行檢索;結果展示模組608,用以將檢索結果向用戶端展示。
在實施例中,在匹配獲取候選查詢資料時,可以藉由對目前查詢資料進行分詞的方式,按照子查詢資料來進行匹配獲取各個候選查詢資料,這樣就更能在資料庫中準確的匹配獲取到各個候選查詢資料,以便於後續方便的對目前查詢資料進行改寫,並進行檢索,從而使得檢索結果達到更高的準確性,提升了召回率。
與上述本申請案的一種檢索方法和裝置實施例相對應,參見圖7,本申請案還提供了一種檢索系統的實施例,在本實施例中,該系統具體可以包括:位於伺服器端的:資料庫701,用以保存用戶端的歷史查詢資料;所述預置的資料庫在作為單獨的實體時,需要和伺服器相連,當然,也可以集成到伺服器上,作為伺服器的一個單元或模組存在;獲取模組702,用以針對目前查詢資料,在所述資料庫中匹配獲得與所述目前查詢資料相關的候選查詢資料;提取特徵模組703,用以提取所述目前查詢資料和候選查詢資料的特徵,所述特徵用以描述所述目前查詢資料和候選查詢資料的匹配結果;第一判斷模組704,用以判斷所述匹配結果是否表示需要改寫所述目前查詢資料;改寫模組705,用以根據所述匹配結果對所述目前查詢資料進行改寫;檢索模組706,用以根據所述改寫模組的結果進行檢索。
較佳的,所述系統還可以包括查詢日誌705,所述查詢日誌與所述預置的資料庫相連,用以提供給伺服器用戶端的歷史查詢資料,還可以提供給伺服器查詢結果等。
其中,在實際應用中檢索系統中各個部分結構情況還可以參考圖8所示。
需要說明的是,該系統還可以包括位於用戶端的:瀏覽器707,用以接收來自用戶端的目前查詢資料並提交伺服器;在本實施例中,描述了用戶端和伺服器進行交互時,用戶端以及伺服器端各個裝置的工作交互情況;首先瀏覽器接收用戶輸入的查詢時護具,並將目前查詢資料提交至伺服器;需要說明的是,本說明書中的各個實施例均採用遞進的方式描述,每一個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對於裝置類實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
還需要說明的是,術語“包括”、”包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
以上對本申請案所提供的一種檢索方法、裝置及系統進行了詳細介紹,本文中應用了具體個例對本申請案的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請案的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請案的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請案的限制。
401...獲取模組
402...提取特徵模組
403...第一賦值子模組
404...第一處理子模組
405...第一判斷子模組
406...改寫模組
407...檢索模組
501...獲取模組
502...提取特徵模組
503...第二賦值子模組
504...第二處理子模組
505...第二判斷子模組
506...第二判斷模組
507...執行模組
508...檢索模組
601...分詞子模組
602...匹配子模組
603...比對子模組
604...獲取匹配結果子模組
605...第一判斷模組
606...改寫模組
607...檢索模組
608...結果展示模組
701...資料庫
702...獲取模組
703...提取特徵模組
704...第一判斷模組
705...改寫模組
706...檢索模組
707...瀏覽器
為了更清楚地說明本申請案實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請案的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是本申請案的一種檢索方法實施例1的流程圖;
圖2是本申請案的一種檢索方法實施例2的流程圖;
圖3是本申請案的一種檢索方法實施例3的流程圖;
圖4是本申請案的一種檢索裝置實施例1的結構方塊圖;
圖5是本申請案的一種檢索裝置實施例2的結構方塊圖;
圖6是本申請案的一種檢索裝置實施例3的結構方塊圖;
圖7是本申請案的一種檢索系統實施例的結構方塊圖;
圖8是本申請案的一種檢索系統實施例在實際應用中的具體結構方塊圖。

Claims (21)

  1. 一種檢索方法,其特徵在於,該方法包括:針對目前查詢資料,改寫資料系統自預置的資料庫中匹配獲得與該目前查詢資料相關的一或多個候選查詢資料,其中,該一或多個候選查詢資料的每一個包含與個別特徵相關聯的至少一個資料;該改寫資料系統自該預置的資料庫中提取出該一或多個候選查詢資料的特徵;針對該等提取出的特徵的每一個,判斷對於該目前查詢中的資料和與該個別特徵相關聯的該至少一個資料的匹配結果;該改寫資料系統至少部分根據該等匹配結果來判斷是否需要改寫該目前查詢資料;回應於判斷需要改寫該目前查詢資料,藉由該改寫資料系統至少部分根據該等匹配結果而對該目前查詢資料進行改寫以提供改寫後的目前查詢資料,及藉由搜索引擎至少部分根據該改寫後的目前查詢資料來進行檢索。
  2. 如申請專利範圍第1項所述的方法,其中,該針對目前查詢資料,改寫資料系統在預置的資料庫中匹配獲得與該目前查詢資料相關的一或多個候選查詢資料,具體為:該改寫資料系統自該預置的資料庫中匹配獲取至少兩個候選查詢資料, 且其中,該改寫資料系統至少部分根據該等匹配結果來判斷是否需要改寫該目前查詢資料,具體包括:該改寫資料系統至少部分根據該等匹配結果而為該等特徵賦值,每一個特徵具有對應的特徵值;該改寫資料系統至少部分根據一或多個預定規則而對該等特徵值進行處理,以獲得到與該至少兩個候選查詢資料對應的至少兩個匹配結果值;及該改寫資料系統判斷該至少兩個匹配結果值中最大的匹配結果值是否大於第一閾值。
  3. 如申請專利範圍第1項所述的方法,其中,該針對目前查詢資料,改寫資料系統自預置的資料庫中匹配獲得與該目前查詢資料一或多個候選查詢資料,具體為:該改寫資料系統自該預置的資料庫中匹配獲取一個候選查詢資料,且其中,該改寫資料系統至少部分根據該等匹配結果來判斷是否要改寫該目前查詢資料,具體包括:該改寫資料系統至少部分根據該等匹配結果而為該一個候選查詢資料與該目前查詢資料的該等特徵賦值;該改寫資料系統至少部分根據一或多個預定規則而對該等特徵值進行處理,以獲得到與該一個候選查詢資料對應的一個匹配結果值;及該改寫資料系統判斷該一個匹配結果值是否大於第一閾值。
  4. 如申請專利範圍第2或3項所述的方法,其中,該 改寫資料系統至少部分根據一或多個預定規則而對該等特徵值進行處理,具體包括:該改寫資料系統至少部分根據線性加權的方式而對該等特徵值進行處理,或者至少部分根據最大熵模型而將該等特徵值轉換為該等匹配結果值。
  5. 如申請專利範圍第1項所述的方法,其中,該預置的資料庫中還包括與該歷史查詢資料對應的查詢結果,且其中,當該改寫資料系統判斷需要改寫該目前查詢資料時,該方法還包括:該改寫資料系統判斷與該等匹配結果對應的該一或多個候選查詢資料是否具有對應的查詢結果;及回應於判斷與該等匹配結果對應的該一或多個候選查詢資料是否具有對應的查詢結果,至少部分根據該等匹配結果而對該目前查詢資料進行改寫。
  6. 如申請專利範圍第1項所述的方法,其中,該針對目前查詢資料,改寫資料系統自預置的資料庫中匹配獲得與該目前查詢資料一或多個一或多個候選查詢資料,具體包括:該改寫資料系統將該目前查詢資料進行分詞,以提供多個子查詢資料;為分詞後的每一個子查詢資料設置標識;及該改寫資料系統至少部分根據該每一個子查詢資料各自的標識和分詞結果而在該預置的資料庫中進行匹配,從而獲得該等子查詢資料的候選查詢資料。
  7. 如申請專利範圍第6項所述的方法,其中,該改寫資料系統提取該目前查詢資料和該等候選查詢資料的特徵,具體包括:該改寫資料系統將該目前查詢資料的該等子查詢資料與該等子查詢資料的該等候選查詢資料進行比對;及至少部分根據該比對的結果,該改寫資料系統獲得該等子查詢資料與該等子查詢資料的該等候選查詢資料的匹配結果。
  8. 如申請專利範圍第1項所述的方法,其中,在該搜索引擎根據該改寫後的目前查詢資料進行檢索之後,該方法還包括:該搜索引擎將檢索結果向用戶端展示。
  9. 一種檢索裝置,其特徵在於,該裝置包括:至少一個處理器;至少一個儲存設備,其儲存指令,當該等指令被該至少一個處理器所執行時,該等指令實施;獲取模組,用以針對目前查詢資料,自預置的資料庫中匹配獲得與該目前查詢資料相關的一或多個候選查詢資料,其中,該一或多個候選查詢資料的每一個包含與個別特徵相關聯的至少一個資料;提取特徵模組,用以自該預置的資料庫中提取出該一或多個候選查詢資料的特徵;第一判斷模組,用以針對該等提取出的特徵的每一個,判斷對於該目前查詢中的資料和與該個別特徵相關聯 的該至少一個資料的匹配結果,並且至少部分根據該等匹配結果來判斷是否需要改寫該目前查詢資料;改寫模組,用以至少部分根據該等匹配結果而對該目前查詢資料進行改寫;及檢索模組,用以至少部分根據該改寫後的目前查詢資料而進行檢索。
  10. 如申請專利範圍第9項所述的裝置,其中,當該獲取模組係組構成自該預置的資料庫中匹配獲得至少兩個候選查詢資料時,該第一判斷模組具體包括:第一賦值子模組,用以至少部分根據該等匹配結果而為該等特徵賦值,每一個特徵具有對應的特徵值;第一處理子模組,用以至少部分根據一或多個預定規則而對該等特徵值進行處理,以獲得到與該至少兩個候選查詢資料對應的至少兩個匹配結果值;及第一判斷子模組,用以判斷該至少兩個匹配結果值中最大的匹配結果值是否大於第一閾值。
  11. 如申請專利範圍第9項所述的裝置,其中,當該獲取模組係組構成自該預置的資料庫中匹配獲取一個候選查詢資料時,該第一判斷模組具體包括:第二賦值子模組,用以至少部分根據該等匹配結果而為該一個候選查詢資料與該目前查詢資料的該等特徵賦值;第二處理子模組,用以至少部分根據預定規則而對該等特徵值進行處理,以獲得到與該一個候選查詢資料對應 的一個匹配結果值;及第二判斷子模組,用以判斷該一個匹配結果值是否大於第一閾值。
  12. 如申請專利範圍第10或11項所述的裝置,其中,該第一處理子模組或第二處理子模組至少部分根據線性加權的方式而對該等特徵值進行處理,或者按照最大熵模型而將該等特徵值轉換為該等匹配結果值。
  13. 如申請專利範圍第9項所述的裝置,其中,當該預置的資料庫中還包括與該歷史查詢資料對應的查詢結果時,該裝置還包括:第二判斷模組,用以判斷該匹配結果對應的候選查詢資料是否具有對應的查詢結果;及執行模組,用以回應於該第二判斷模組判斷該匹配結果對應的候選查詢資料具有對應的查詢結果,至少部分根據該等匹配結果而對該目前查詢資料進行改寫。
  14. 如申請專利範圍第9項所述的裝置,其中,該獲取模組具體包括:分詞子模組,用以將該目前查詢資料進行分詞而分成多個子查詢資料,並為分詞後的每一個子查詢資料設置標識;及匹配子模組,用以至少部分根據該等子查詢資料的該等標識和分詞結果而在該預置的資料庫中進行匹配,從而獲得該一或多個候選查詢資料。
  15. 如申請專利範圍第14項所述的裝置,其中,該提 取特徵模組具體包括:比對子模組,用以將該等目前查詢資料的呆等子查詢資料與該一或多個候選查詢資料進行比對;及獲取匹配結果子模組,用以至少部分根據該比對結果,獲得該等子查詢資料與該一或多個候選查詢資料的匹配結果。
  16. 如申請專利範圍第9項所述的裝置,其中,還包括:結果展示模組,用以將檢索結果向用戶端展示。
  17. 一種檢索系統,其特徵在於,該系統包括:至少一個處理器;至少一個儲存設備,其儲存指令,當該等指令被該至少一個處理器所執行時,該等指令實施;改寫資料系統,用以:針對目前查詢資料,自預置的資料庫中匹配獲得與該目前查詢資料相關的一或多個候選查詢資料,其中,該一或多個候選查詢資料的每一個包含與個別特徵相關聯的至少一個資料;自該預置的資料庫中提取出該一或多個候選查詢資料的特徵;針對該等提取出的特徵的每一個,判斷對於該目前查詢中的資料和與該個別特徵相關聯的該至少一個資料的匹配結果;至少部分根據該等匹配結果來判斷是否需要改寫該目 前查詢資料;以及至少部分根據該等匹配結果而對該目前查詢資料進行改寫以提供改寫後的目前查詢資料;及搜索引擎,用以至少部分根據該改寫後的目前查詢資料而進行檢索。
  18. 一種檢索方法,其特徵在於,該方法包括:接收由用戶所提出之目前查詢資料,該目前查詢資料包括許多資料;自資料庫中獲得候選查詢資料,該候選查詢資料包括許多資料,其中,該資料庫儲存候選查詢資料和與該等所儲存之候選查詢資料相關聯的資料,其中,該各個特徵描述與該相關聯的資料對應的屬性;識別該目前查詢資料的特徵,其中,各個識別出的特徵係與該目前查詢資料之該許多資料的至少一個資料相關聯,並且描述與該相關聯的資料對應的屬性;將該目前查詢資料之該等識別出的特徵與該等候選查詢資料的該等特徵匹配,以判斷特徵-匹配結果;及至少部分根據該特徵-匹配結果來判斷是否要改寫該目前查詢資料;以及回應於判斷要改寫該目前查詢資料,藉由改寫資料系統至少部分根據該特徵-匹配結果而對該目前查詢資料進行改寫以提供改寫後的目前查詢資料;及藉由搜索引擎至少部分根據該改寫後的目前查詢資料 來進行檢索。
  19. 如申請專利範圍第18項所述的方法,還包括:在識別該目前查詢資料的特徵之前,將該目前查詢資料分詞成該許多資料。
  20. 如申請專利範圍第18項所述的方法,其中,一組特徵包含品牌、型號、和產品類型的至少其中一者,且其中,識別該目前查詢資料的特徵包括:將該目前查詢資料之該許多資料的資料識別為對應於該組特徵的一特徵;以及使該識別出的資料與該對應的特徵相關聯。
  21. 如申請專利範圍第19項所述的方法,其中,將該目前查詢資料之該等識別出的特徵與該等候選查詢資料的該等特徵匹配,以判斷特徵-匹配結果另包括:判斷該候選查詢資料的資料是否與一特徵相關聯,而該特徵和與該目前查詢資料之該識別出的特徵相關聯之該對應的特徵相同;以及回應於判斷該候選查詢資料的資料和該目前查詢資料之該識別出的資料係與該相同的特徵相關聯,將該特徵賦予特徵值,其中,該特徵-匹配結果係基於至少部分根據該特徵值。
TW099100277A 2010-01-07 2010-01-07 Retrieval methods, devices and systems TWI484356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW099100277A TWI484356B (zh) 2010-01-07 2010-01-07 Retrieval methods, devices and systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW099100277A TWI484356B (zh) 2010-01-07 2010-01-07 Retrieval methods, devices and systems

Publications (2)

Publication Number Publication Date
TW201124862A TW201124862A (en) 2011-07-16
TWI484356B true TWI484356B (zh) 2015-05-11

Family

ID=45047250

Family Applications (1)

Application Number Title Priority Date Filing Date
TW099100277A TWI484356B (zh) 2010-01-07 2010-01-07 Retrieval methods, devices and systems

Country Status (1)

Country Link
TW (1) TWI484356B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289168A1 (en) * 2000-06-26 2005-12-29 Green Edward A Subject matter context search engine
US20060224552A1 (en) * 2005-03-31 2006-10-05 Palo Alto Research Center Inc. Systems and methods for determining user interests
TW200809549A (en) * 2005-11-23 2008-02-16 Dun & Bradstreet Corp System and method for searching and matching data having ideogrammatic content
US20090265303A1 (en) * 2008-04-16 2009-10-22 Yahoo! Inc. Identifying superphrases of text strings

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289168A1 (en) * 2000-06-26 2005-12-29 Green Edward A Subject matter context search engine
US20060224552A1 (en) * 2005-03-31 2006-10-05 Palo Alto Research Center Inc. Systems and methods for determining user interests
TW200809549A (en) * 2005-11-23 2008-02-16 Dun & Bradstreet Corp System and method for searching and matching data having ideogrammatic content
US20090265303A1 (en) * 2008-04-16 2009-10-22 Yahoo! Inc. Identifying superphrases of text strings

Also Published As

Publication number Publication date
TW201124862A (en) 2011-07-16

Similar Documents

Publication Publication Date Title
US8880512B2 (en) Method, apparatus and system, for rewriting search queries
CN107729336B (zh) 数据处理方法、设备及系统
JP5721818B2 (ja) 検索におけるモデル情報群の使用
WO2020207074A1 (zh) 一种信息推送的方法及设备
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
TWI549004B (zh) Search Method Based on Online Trading Platform and Establishment Method of Device and Web Database
CN110390094B (zh) 对文档进行分类的方法、电子设备和计算机程序产品
JP2009151760A (ja) オブジェクト間競合指標計算方法およびシステム
US20230394094A1 (en) Retrieval of content using link-based search
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
CN113660541B (zh) 新闻视频的摘要生成方法及装置
US10255246B1 (en) Systems and methods for providing a searchable concept network
CA3051919C (en) Machine learning (ml) based expansion of a data set
JP6163143B2 (ja) 情報提供装置、情報提供方法、および情報提供プログラム
TWI547888B (zh) A method of recording user information and a search method and a server
TWI484356B (zh) Retrieval methods, devices and systems
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
TWI483129B (zh) Retrieval method and device
CN116610782B (zh) 文本检索方法、装置、电子设备及介质
CN106776981B (zh) 一种基于经验知识的智能检索方法
US20230297621A1 (en) Identifying merchant data associated with multiple data structures
CN111177552A (zh) 一种基于用户需求的科技成果推送方法及装置
CN115934802A (zh) 数据检索方法、装置、电子设备及存储介质
CN112818221A (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN117407512A (zh) 问答方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees