TW201319842A - 搜尋方法、搜尋裝置及搜尋引擎系統 - Google Patents
搜尋方法、搜尋裝置及搜尋引擎系統 Download PDFInfo
- Publication number
- TW201319842A TW201319842A TW101107359A TW101107359A TW201319842A TW 201319842 A TW201319842 A TW 201319842A TW 101107359 A TW101107359 A TW 101107359A TW 101107359 A TW101107359 A TW 101107359A TW 201319842 A TW201319842 A TW 201319842A
- Authority
- TW
- Taiwan
- Prior art keywords
- search
- word
- matching
- category
- intent
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 241000254158 Lampyridae Species 0.000 description 38
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000011218 segmentation Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 241000238631 Hexapoda Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申請提供了一種搜尋方法、搜尋裝置及一種搜尋引擎系統,以解決現有技術在識別用戶搜尋意圖時不夠準確,進而影響搜尋精準度的問題。該方法包括:接收即時搜尋字串;將該即時搜尋字串與預生成的詞典進行匹配,該詞典是第一類詞和第二類詞的集合;如果該即時搜尋字串中的某部分與詞典中的某個類別的第二類詞匹配上,則將該部分替換為該第二類詞所屬類別的標籤,匹配完成後的即時搜尋字串包含第一類詞和/或第二類詞所屬類別的標籤和/或未匹配上的部分;依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,並依據該特定搜尋意圖返回搜尋結果資料。本申請可顯著提高搜尋精準度,提供更加精確的搜尋結果資料。
Description
本申請係關於網路技術,特別係關於一種搜尋方法、搜尋裝置及一種搜尋引擎系統。
搜尋引擎(search engine)是指根據一定的策略、運用特定的電腦程式搜集互聯網上的資訊,在對資訊進行組織和處理後,為用戶提供檢索服務的系統。搜尋引擎的出現,為用戶使用網路資訊提供了便利性,用戶可以從互聯網提供的大量資料中檢索出自己需要的資訊。
利用現有的搜尋引擎系統,如果用戶想從網上下載“王菲”演唱的“螢火蟲”這首歌,若在搜尋主頁的搜尋框中輸入關鍵字“螢火蟲”,大多數搜尋引擎網站會給出如圖1所示或類似圖1的搜尋結果。在這些搜尋結果中,排在最前位置的是介紹“螢火蟲”這種動物的網頁鏈結,這個結果顯然不符合用戶的搜尋意圖。
為了改善這種情況,有些搜尋引擎系統提供了分類搜尋功能,利用這種搜尋引擎系統,用戶可進入音樂類的搜尋頁面,然後在搜尋框中輸入關鍵字“螢火蟲”,此時多數搜尋引擎網站又會給出如圖2或圖3所示的類似搜尋結果。這些搜尋結果雖然列出了歌曲的鏈結,但是,在歌曲名同名而歌手不同或多個歌手演唱同一首歌的情況下,搜尋結果中排在最前位置的歌曲鏈結並不是流傳度最廣、多
數用戶最想找的王菲演唱的“螢火蟲”,而是其他歌手演唱的“螢火蟲”。此時,用戶需要在搜尋結果中一條一條地查找王菲演唱的“螢火蟲”,非常麻煩。此外,有些搜尋結果還不是針對歌曲“螢火蟲”的鏈結,而是其他的歌曲,只是這些歌曲的名字或歌詞中出現了“螢火蟲”一詞,如圖2所示。這樣,搜尋的準確度就更難保證了。
因此,目前的搜尋引擎在識別用戶搜尋意圖時還不夠準確,進而影響了搜尋精準度。
本申請提供了一種搜尋方法、搜尋裝置及一種搜尋引擎系統,以解決現有技術在識別用戶搜尋意圖時不夠準確,進而影響搜尋精準度的問題。
為了解決上述問題,本申請公開了一種搜尋方法,包括:接收即時搜尋字串;將該即時搜尋字串與預生成的詞典進行匹配,該詞典是第一類詞和第二類詞的集合;如果該即時搜尋字串中的某部分與詞典中的某個類別的第二類詞匹配上,則將該部分替換為該第二類詞所屬類別的標籤,匹配完成後的即時搜尋字串包含第一類詞和/或第二類詞所屬類別的標籤和/或未匹配上的部分;依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,並依據該特定搜尋意圖返回搜尋結果資料
。
較佳地,該預生成的模式由元資料類別的標籤組成,和/或由意圖詞和元資料類別的標籤組成;該詞典中的第一類詞是該模式中的意圖詞;該詞典中的第二類詞是關係資料中的元資料。
較佳地,該方法還包括預生成模式的步驟:將歷史搜尋資料中的歷史搜尋字串依次與關係資料中的元資料進行匹配,如果歷史搜尋字串中的某部分與某個類別的元資料匹配上,則將該部分替換為該元資料類別的標籤;統計匹配完成後的歷史搜尋字串出現的頻率次數,並基於該統計的頻率次數進行排序,將頻率次數超過閾值的匹配完成後的歷史搜尋字串作為模式。
較佳地,將該即時搜尋字串與預生成的詞典進行匹配,包括:將該即時搜尋字串從左至右依序與預生成的詞典進行完全匹配。
較佳地,該依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,包括:如果匹配完成後的即時搜尋字串由第二類詞所屬類別的標籤組成,和/或,由第一類詞和第二類詞所屬類別的標籤組成,則該匹配完成後的即時搜尋字串與預生成的某個模式相匹配,該匹配完成後的即時搜尋字串具有該模式表示的特定搜尋意圖。
較佳地,依據該特定搜尋意圖返回搜尋結果資料,包括:將與該特定搜尋意圖相對應的特定結果資料排在所有搜尋結果資料的第一位返回。
較佳地,該特定結果資料包括多個相關聯的元資料資訊,點擊每個元資料資訊的鏈結可進入相應的詳情頁面。
本申請還提供了一種搜尋裝置,包括:輸入模組,用於接收即時搜尋字串;即時匹配模組,用於將該即時搜尋字串與預生成的詞典進行匹配,該詞典是第一類詞和第二類詞的集合;替換模組,用於當該即時搜尋字串中的某部分與詞典中的某個類別的第二類詞匹配上時,將該部分替換為該第二類詞所屬類別的標籤,匹配完成後的即時搜尋字串包含第一類詞和/或第二類詞所屬類別的標籤和/或未匹配上的部分;即時輸出模組,用於依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,並依據該特定搜尋意圖返回搜尋結果資料。
較佳地,該預生成的模式由元資料類別的標籤組成,和/或由意圖詞和元資料類別的標籤組成;該詞典中的第一類詞是該模式中的意圖詞;該詞典中的第二類詞是關係資料中的元資料。
較佳地,該裝置還包括:模式生成模組,具體包括:替換子模組,用於將歷史搜尋資料中的歷史搜尋字串依次與關係資料中的元資料進行匹配,如果歷史搜尋字串中的某部分與某個類別的元資料匹配上,則將該部分替換為該元資料類別的標籤;統計子模組,用於統計匹配完成後的歷史搜尋字串出現的頻率次數,並基於該統計的頻率次數
進行排序,將頻率次數超過閾值的匹配完成後的歷史搜尋字串作為模式。
本申請還提供了一種搜尋引擎系統,包括如上所述的搜尋裝置。
與現有技術相比,本申請包括以下優點:首先,本申請從大規模的歷史搜尋資料和特定領域的關係資料出發,事先計算出特定搜尋意圖包含的意圖詞及其模式,並結合相關領域的關係資料,即時地判斷給定的搜尋字串是否具有其特定的搜尋意圖。本申請可準確識別搜尋字串中每個部分的特定意圖,進而精準確定該搜尋字串的搜尋意圖,顯著提高搜尋精準度,提供更加精確的搜尋結果資料。而且,本申請還可確保自動識別用戶特定搜尋意圖的三個條件,即:很高的即時回應速度、很高的正確率以及較高的召回率。
其次,本申請在即時判斷給定的搜尋字串是否具有其特定的搜尋意圖時,較佳採用完全匹配的方法,進一步提高了搜尋精準度。
再次,本申請根據識別出的特定搜尋意圖返回的搜尋結果資料與現有技術不同,本申請是將與該特定搜尋意圖相對應的特定結果資料排在所有搜尋結果資料的第一位返回,並且特定結果資料包括多個相關聯的元資料資訊,點擊每個元資料資訊的鏈結可進入相應的詳情頁面。這種展現方式給出的搜尋結果更加精准、給出的與結果相關的資訊更加豐富,方便了用戶操作。
當然,實施本申請的任一產品不一定需要同時達到以上所述的所有優點。
為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。
為了提供更加準確的針對特定搜尋意圖的搜尋觸發服務,提高用戶的搜尋體驗,本申請從大規模的歷史搜尋資料和特定領域的關係資料出發,事先計算出特定搜尋意圖包含的意圖詞及其模式,並結合相關領域的關係資料,即時地判斷給定的搜尋字串是否具有其特定的搜尋意圖。
例如,用戶若輸入搜尋“螢火蟲MP3下載”,本申請會基於搜尋觸發服務自動識別出用戶的搜尋意圖是得到歌曲“螢火蟲”的直接相關資訊服務。據此分析,本申請會在搜尋返回首頁直接給出歌曲“螢火蟲”的相關資訊,包括:歌手名、專輯名、可免費下載的鏈結等。
下面透過實施例對本申請進行詳細說明。
參照圖4,是本申請實施例所述一種搜尋方法的總體流程示意圖。
本實施例所述的搜尋方法是基於關係資料的無結構查詢觸發的流程圖。基本的,可分為離線處理和線上處理兩部分,具體如下:
基於大規模的歷史搜尋資料(百萬數量級以上)和特定領域的關係資料(例如,歌曲名以及對應的歌手名),利用資料挖掘技術,挖掘出特定領域的搜尋意圖詞及其模式。例如,搜音樂意圖的查詢,其意圖詞包括:“mp3下載”、“免費下載”;其搜尋意圖模式包括:“<Song>mp3下載”、“<Song>免費下載”、“<Song><Singer>”。其中,標籤<Song>和<Singer>分別表示一個歌曲名和一個歌手名。
針對用戶即時提交的搜尋字串,基於離線處理挖掘出的特定意圖的模式以及其相關領域的關係資料,判斷該搜尋是否具有特定的搜尋意圖。
下面透過圖5和圖6分別詳細說明上述的離線處理部分和線上處理部分。
參照圖5,是本申請實施例所述離線生成搜尋意圖模式的示意圖。
如前所述,在離線部分,是基於大規模的歷史搜尋資料和特定領域的關係資料挖掘出特定領域的搜尋意圖詞及其模式。
其中,該歷史搜尋資料可以採用搜尋引擎系統的日誌資料,日誌資料中記載了用戶的歷史搜尋字串。該歷史搜尋字串可以是一個關鍵字,也可以是多個關鍵字的組合,
還可以是一個短語、一句話。
該特定領域的關係資料是指特定領域的採用關聯式資料結構的資料,特定領域可以是新聞、圖片、視頻、地圖、音樂、購物等等劃分出來的領域,對於每個領域中的搜尋資料,可採用關聯式資料結構進行儲存。其中,關聯式資料是以關係數學模型來表示的資料,關係數學模型中以二維表的形式來描述資料。例如,在音樂領域,歌曲名以及對應的歌手名就是一對關係資料。
如圖5所示,挖掘過程可分為以下兩步:
S1,改寫查詢;將大規模歷史搜尋資料中的歷史搜尋字串依次與特定領域的關係資料中的元資料進行匹配,如果歷史搜尋字串中的某部分與某個類別的元資料匹配上,則將該部分替換為該元資料類別的標籤;例如,將歷史搜尋字串“螢火蟲王菲MP3下載”與音樂領域的元資料(歌曲名及對應的歌手名)進行匹配,匹配到歌曲名“螢火蟲”和歌手名“王菲”,則可將該查詢改寫為“<Song><Singer>MP3下載”,其中<Song>和<Singer>分別是對應歌曲名及歌手名的標籤。
S2,統計排序;統計匹配完成後的歷史搜尋字串出現的頻率次數,並基於該統計的頻率次數進行排序,將頻率次數超過閾值(即高頻)的匹配完成後的歷史搜尋字串作為模式。相應地,模式中的詞即為意圖詞。
例如,基於真實大規模搜尋資料挖掘出的音樂意圖模式包括:“<Song><Singer>”、“<Song>mp3下載”、“<Song>鈴聲<Singer>”等。
由上可知,對於匹配完成後的所有歷史搜尋字串,本實施例只是從中選取高頻出現的作為範本。並且,生成的模式由元資料類別的標籤組成(如“<Song><Singer>”),和/或由意圖詞和元資料類別的標籤組成(“<Song>mp3下載”、“<Song>鈴聲<Singer>”)。意即:生成的模式中可能全部是標籤或標籤的組合,也可能是標籤和意圖詞的組合,但單獨的意圖詞不會構成模式。而且,模式中出現的詞才是意圖詞,不是模式中出現的詞不能成為意圖詞。
基於以上生成的意圖詞及其模式,即時的模式匹配過程如圖6所示。
參照圖6,是本申請實施例所述線上進行模式匹配的示意圖。
線上匹配過程是:將挖掘出的意圖詞以及關係資料中的元資料的集合作為詞典,將用戶輸入的搜尋字串從左至右與詞典進行匹配。匹配過程中,用戶輸入的搜尋字串無需進行分詞,直接以單個詞為單位進行匹配,如果搜尋字串是中文,則以單個字為單位,如果搜尋字串是英文等外文,則透過空格可以區分出一個個的單詞,並以單詞為單位進行匹配。現有技術中的搜尋一般都先進行分詞處理,但分詞的處理速度較慢,而且對於未出現過程的新詞還可能存在分詞不準確的問題。但本申請實施例不經過分詞的
處理,所以可以避免這些問題。
如果搜尋字串中的某部分匹配上關係資料中的元資料,則將該部分替換為元資料類別的標籤;如果搜尋字串中的某部分無法語詞典匹配,亦即:這部分既無法匹配詞典中的元資料,亦無法匹配詞典中的意圖詞,則表明該搜尋字串與任何一個模式都不匹配,失敗退出。如果搜尋字串能成功地從左至右匹配上詞典,並且其改寫後的字串匹配完全匹配上離線挖掘出的一個模式,則判斷該搜尋具有某特定的搜尋意圖。
舉例來說,通常搜尋系統會參考用戶的關注度對特定領域的關係資料進行分類,如分為音樂、小說、電影等不同領域的關係資料,並結合不同領域的意圖詞構成不同類型的詞典。搜尋時,優先考慮熱門領域的詞典,對於冷門的領域,一般不予考慮,只有在熱門領域的搜尋中查詢不到時才會考慮。基於此,假設當前系統中有音樂、小說和電影三個熱門領域的詞典,當用戶輸入“MP3螢火蟲王菲”後,不進行分詞,根據空格或簡單地語義分析(目前的搜尋系統基本都具有此功能)就可以確定出一個個單獨的詞,然後分別與熱門領域的三個詞典進行匹配。
匹配過程為:先將“MP3”一詞分別與音樂、小說和電影這三個詞典中的元資料和意圖詞進行匹配,假設在音樂和電影這兩個詞典中找到MP3一詞,結合現有的模式,MP3是意圖詞,不進行標籤的替換。然後,繼續將“螢”字在音樂和電影這兩個詞典中進行匹配,假設在這兩個
詞典中都找到“螢”字,則繼續匹配“火”字,如果也同時找到,繼續匹配“蟲”字,假設還是同時在兩個詞典中找到。此時,結合現有的模式,在音樂類的模式中,可以將“螢火蟲”替換為標籤<Song>;而在電影類的模式中,可以將“螢火蟲”替換為標籤<Film>。替換之後,繼續依次匹配“王”字和“菲”字。最後,在匹配“菲”字時,只在音樂類的詞典中找到,而且結合音樂類的現有模式,可以將“王菲”一詞替換為標籤<Singer>。至此,匹配並替換之後得到“MP3<Song><Singer>”,現有的模式中存在這種模式,因此最後得到可以推測出用戶的搜尋意圖是希望找到王菲演唱的螢火蟲這首歌。
上述線上匹配過程中,雖然“螢火蟲”一詞也可能在昆蟲類的詞典中出現,但是昆蟲類是較冷門的分類,匹配時不會考慮,即不會把“螢火蟲”與昆蟲類的詞典進行匹配。因此,實際應用中,出現多個匹配結果的可能性非常低,可以忽略不計。
綜上所述,由圖6可知,透過匹配識別搜尋意圖的過程中,將用戶輸入的搜尋字串與特定領域的關係資料、意圖詞及模式的匹配過程是一個自動一體化的過程,透通過自左至右的逐個匹配,如果能全部匹配上,則原始輸入的搜尋字串被改寫為一個由意圖詞和標籤,或者僅由標籤構成的字串,此時該搜尋字串已成為一個模式,因為如果有無法匹配的部分,則不屬於模式的範疇,所以當匹配結束時,就已經確定出該搜尋字串是不是與預生成的模式相匹
配。
線上匹配的詳細處理流程如圖7所示。
參照圖7,是本申請實施例該線上搜尋的流程圖。
步驟701,接收即時搜尋字串;該即時搜尋字串即為用戶在搜尋框中輸入的查詢資訊;
步驟702,將該即時搜尋字串與預生成的詞典進行匹配,該詞典是第一類詞和第二類詞的集合;具體的,該詞典中的第一類詞可以是模式中的意圖詞,該詞典中的第二類詞可以是關係資料中的元資料。
較佳的,可以將該即時搜尋字串從左至右依序與預生成的詞典進行完全匹配,匹配過程中無需對即時搜尋字串進行分詞,而是以單個詞為單位依序匹配。該完全匹配是指即時搜尋字串中的所有內容均與詞典中的意圖詞或元資料匹配,沒有不匹配的部分。這種完全匹配策略可以使搜尋意圖的識別準確度更高。當然,在準確度要求不高的情況下,也可以採用部分匹配或權值匹配等方法。此外,本實施例中,由於生成的模式中各個元素有先後順序之分,如“<Song><Singer>”和“<Singer><Song>”是兩個模式,所以該匹配還有順序的要求(從左至右)。當然,如果模式中的元素沒有順序之分,如將上述兩個模式合併為一個模式,則匹配時也無需要求搜尋字串中各部分的順序與模式中各元素的順序一致。
步驟703,如果該即時搜尋字串中的某部分與詞典中
的某個類別的第二類詞匹配上,則將該部分替換為該第二類詞所屬類別的標籤,匹配完成後的即時搜尋字串包含第一類詞和/或第二類詞所屬類別的標籤和/或未匹配上的部分;例如,搜尋字串“螢火蟲王菲MP3下載”與元資料中的歌曲名“螢火蟲”和歌手名“王菲”相匹配,則使用標籤替換該字串為“<Song><Singer>MP3下載”。
步驟704,依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,並依據該特定搜尋意圖返回搜尋結果資料。
其中,依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,具體可以理解為:如果匹配完成後的即時搜尋字串由第二類詞(元資料)所屬類別的標籤組成,和/或,由第一類詞(意圖詞)和第二類詞(元資料)所屬類別的標籤組成,則該匹配完成後的即時搜尋字串與預生成的某個模式相匹配,該匹配完成後的即時搜尋字串具有該模式表示的特定搜尋意圖。
例如,搜尋字串“螢火蟲王菲MP3下載”與元資料中的歌曲名“螢火蟲”和歌手名“王菲”,以及意圖詞“MP3下載”依次相匹配,因此搜尋字串“螢火蟲王菲MP3下載”與模式“<Song><Singer>MP3下載”相匹配,進而識別出該搜尋字串表示的搜尋意圖是“下載王菲演唱的螢火蟲這首歌”。相反的,如果搜尋字串是“螢火蟲王菲免費”,而預生成的模式中沒有“<Song><Singer>免費”這
樣的模式,那麼該搜尋字串就與模式不匹配。
此外,步驟704中依據該特定搜尋意圖返回搜尋結果資料,具體可以理解為:將與該特定搜尋意圖相對應的特定結果資料排在所有搜尋結果資料的第一位返回。而且,該特定結果資料可以包括多個相關聯的元資料資訊,點擊每個元資料資訊的鏈結可進入相應的詳情頁面。
例如,假設特定結果資料是“王菲”演唱的“螢火蟲”這首歌,那麼就把這首歌的一些相關資訊放在返回首頁的第一位。該相關資訊如歌曲名、歌手名、專輯名、歌詞、檔大小等資訊,每個資訊都是一個元資料,這些元資料之間具有關聯關係。而且,每個元資料都可以做成鏈結的形式,點擊鏈結,即可進入相應的詳情頁面。這種展現方式給出的搜尋結果更加精準、給出的與結果相關的資訊更加豐富,方便了用戶操作。
下面透過舉例說明搜尋結果資料的展現形式。
例1,參照圖8.1所示,搜尋關鍵字是“螢火蟲”,返回的結果頁面中第一條資料如圖8.1中左側的顯示內容,若繼續點擊歌曲名“螢火蟲”的鏈結,則打開如右側顯示的詳情頁。其中,“歌曲名”鏈結至音樂詳情頁,與旁邊的“免費下載”鏈結指向同一個音樂資源。
需要說明的是,圖中左側未顯示出排在第一條資料之後的其他搜尋結果資料。
例2,參照圖8.2所示,繼續例1,若繼續點擊歌手
名“王菲”的鏈結,則鏈結至相關搜尋結果頁面如圖8.2的右側顯示。
例3,參照圖8.3所示,繼續例1,點擊歌曲名“螢火蟲”的鏈結,打開如右側上面顯示的詳情頁;點擊歌詞的鏈結,打開如右側下面顯示的歌詞頁。此時,點擊“歌詞鏈結”等同於在歌詞頁中搜尋“螢火蟲王菲”。
例4,參照圖8.4所示,繼續例1,若直接點擊“免費下載”,則鏈結至的音樂下載提示頁如圖8.4所示。
上述實施例是以音樂領域的搜尋為例進行說明,但具體應用中也可以應用到其他特定領域的搜尋中,其實施原理與上述實施例相似,故不再贅述。
綜上所述,對於搜尋引擎系統,目前評估這些搜尋引擎系統一般從以下三方面考慮:第一,即時回應速度:一個即時回應速度很高的搜尋引擎系統每秒可以處理萬級以上的查詢;第二,正確率:亦即精準度,精準度是檢索出的相關文件數與檢索出的文件總數的比率,衡量的是檢索系統的查準率。一個精準度很高的搜尋引擎系統需要識別用戶真正的查詢意圖,否則會嚴重損害用戶的搜尋體驗;第三,召回率:召回率是檢索出的相關文件數和文件庫中所有的相關文件數的比率,衡量的是檢索系統的查全率。用戶的背景千差萬別,對於特定搜尋意圖的查詢表達也往往不一樣,因此一個召回率較高的搜尋引擎系統需要自動識別出不同表現形式的特定查詢意圖。
但是,在平衡以上三點的過程中,現有技術中的很多搜素引擎系統都未能做到盡善盡美,尤其是在正確率和召回率上還很欠缺。
而本申請實施例可準確識別搜尋字串中每個部分的特定意圖,進而精準確定該搜尋字串的搜尋意圖,顯著提高搜尋精準度。提供更加精確的搜尋結果資料。而且,本申請實施例還可確保自動識別用戶特定搜尋意圖的三個條件,即:很高的即時回應速度、很高的正確率以及較高的召回率。
例如,用戶輸入“螢火蟲”進行搜尋,使用本申請實施例所述方法,由於離線生成的模式是根據大量的歷史搜尋資料統計生成,因此會將“螢火蟲”識別為音樂類而且是王菲演唱的歌曲,並將該歌曲的相關資訊展現在結果頁面的第一位。再如,用戶輸入“螢火蟲王菲MP3下載”,本申請會快速識別出每個關鍵字的搜尋意圖,會將“螢火蟲”定位為歌曲名,將“王菲”定位為歌手名,將“MP3下載”定位為模式中的意圖詞。因此,與現有技術相比,本申請的識別準確度更高。
需要說明的是,對於前述的方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請並不受所描述的動作順序的限制,因為依據本申請,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本
申請所必須的。
基於上述方法實施例的說明,本申請還提供了相應的搜尋裝置實施例。
參照圖9,是本申請實施例所述一種搜尋裝置的結構圖。
該搜尋裝置可以包括輸入模組10、即時匹配模組20、替換模組30和即時輸出模組40,其中:輸入模組10,用於接收即時搜尋字串;即時匹配模組20,用於將該即時搜尋字串與預生成的詞典進行匹配,該詞典是第一類詞和第二類詞的集合;替換模組30,用於當該即時搜尋字串中的某部分與詞典中的某個類別的第二類詞匹配上時,將該部分替換為該第二類詞所屬類別的標籤,匹配完成後的即時搜尋字串包含第一類詞和/或第二類詞所屬類別的標籤和/或未匹配上的部分;即時輸出模組40,用於依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,並依據該特定搜尋意圖返回搜尋結果資料。
其中,該預生成的模式可以由元資料類別的標籤組成,和/或由意圖詞和元資料類別的標籤組成。
相應的,該詞典中的第一類詞可以是該模式中的意圖詞,該詞典中的第二類詞可以是關係資料中的元資料。
較佳的,在本申請的另一裝置實施例中,參照圖10所示,該裝置還可以包括:模式生成模組50,該模式生成
模組50具體包括:替換子模組,用於將歷史搜尋資料中的歷史搜尋字串依次與關係資料中的元資料進行匹配,如果歷史搜尋字串中的某部分與某個類別的元資料匹配上,則將該部分替換為該元資料類別的標籤;統計子模組,用於統計匹配完成後的歷史搜尋字串出現的頻率次數,並基於該統計的頻率次數進行排序,將頻率次數超過閾值的匹配完成後的歷史搜尋字串作為模式。
較佳的,該即時匹配模組20可以將該即時搜尋字串從左至右依序與預生成的詞典進行完全匹配。
其中,該即時輸出模組40中,依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,可以理解為:如果匹配完成後的即時搜尋字串由第二類詞所屬類別的標籤組成,和/或,由第一類詞和第二類詞所屬類別的標籤組成,則該匹配完成後的即時搜尋字串與預生成的某個模式相匹配,該匹配完成後的即時搜尋字串具有該模式表示的特定搜尋意圖。
該即時輸出模組40中,依據該特定搜尋意圖返回搜尋結果資料,進一步可以理解為:將與該特定搜尋意圖相對應的特定結果資料排在所有搜尋結果資料的第一位返回。
並且,可選的,該特定結果資料包括多個相關聯的元資料資訊,點擊每個元資料資訊的鏈結可進入相應的詳情頁面。
基於上述搜尋裝置實施例的內容,本申請還提供了一種搜尋引擎系統的實施例。在該實施例中,該搜尋引擎系統包含上述任一實施例所述的搜尋裝置。
對於上述的搜尋裝置和搜尋引擎系統實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本申請各個實施例所述的內容均適用於搜尋領域,尤其適用於全網搜尋和移動搜尋領域。
本申請可用於眾多通用或專用的計算系統環境或配置中。例如:個人電腦、伺服器電腦、手持設備或可擕式設備、平板型設備、多處理器系統、基於微處理器的系統、機上盒、可編程的消費電子設備、網路PC、小型電腦、大型電腦、包括以上任何系統或設備的分散式計算環境等等。
本申請可以在由電腦執行的電腦可執行指令的一般上下文中描述,例如程式模組。一般地,程式模組包括執行特定任務或實現特定抽象資料類型的常式、程式、物件、元件、資料結構等等。也可以在分散式計算環境中實踐本申請,在這些分散式計算環境中,由透過通信網路而被連接的遠端處理設備來執行任務。在分散式計算環境中,程式模組可以位於包括儲存設備在內的本地和遠端電腦儲存
媒體中。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。
而且,上文中的“和/或”表示本文既包含了“和”的關係,也包含了“或”的關係,其中:如果方案A與方案B是“和”的關係,則表示某實施例中可以同時包括方案A和方案B;如果方案A與方案B是“或”的關係,則表示某實施例中可以單獨包括方案A,或者單獨包括方案B。
以上對本申請所提供的一種搜尋方法、搜尋裝置及一種搜尋引擎系統,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
10‧‧‧輸入模組
20‧‧‧即時匹配模組
30‧‧‧替換模組
40‧‧‧即時輸出模組
50‧‧‧模式生成模組
圖1、圖2和圖3是現有技術中搜尋結果頁面的示意圖;圖4是本申請實施例所述一種搜尋方法的總體流程示意圖;
圖5是本申請實施例所述離線生成搜尋意圖模式的示意圖;圖6是本申請實施例所述線上進行模式匹配的示意圖;圖7是本申請實施例所述線上搜尋的流程圖;圖8.1至8.4是本申請實施例所述搜尋結果頁面的示意圖;圖9是本申請實施例所述一種搜尋裝置的結構圖;圖10是本申請另一實施例所述一種搜尋裝置的結構圖。
Claims (11)
- 一種搜尋方法,其特徵在於,包括:接收即時搜尋字串;將該即時搜尋字串與預生成的詞典進行匹配,該詞典是第一類詞和第二類詞的集合;如果該即時搜尋字串中的某部分與詞典中的某個類別的第二類詞匹配上,則將該部分替換為該第二類詞所屬類別的標籤,匹配完成後的即時搜尋字串包含第一類詞和/或第二類詞所屬類別的標籤和/或未匹配上的部分;依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,並依據該特定搜尋意圖返回搜尋結果資料。
- 根據申請專利範圍第1項所述的方法,其中:該預生成的模式由元資料類別的標籤組成,和/或由意圖詞和元資料類別的標籤組成;該詞典中的第一類詞是該模式中的意圖詞;該詞典中的第二類詞是關係資料中的元資料。
- 根據申請專利範圍第2項所述的方法,其中,還包括預生成模式的步驟:將歷史搜尋資料中的歷史搜尋字串依次與關係資料中的元資料進行匹配,如果歷史搜尋字串中的某部分與某個類別的元資料匹配上,則將該部分替換為該元資料類別的標籤;統計匹配完成後的歷史搜尋字串出現的頻率次數,並 基於該統計的頻率次數進行排序,將頻率次數超過閾值的匹配完成後的歷史搜尋字串作為模式。
- 根據申請專利範圍第1至3項之任一項所述的方法,其中,將該即時搜尋字串與預生成的詞典進行匹配,包括:將該即時搜尋字串從左至右依序與預生成的詞典進行完全匹配。
- 根據申請專利範圍第1至3項之任一項所述的方法,其中,該依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,包括:如果匹配完成後的即時搜尋字串由第二類詞所屬類別的標籤組成,和/或,由第一類詞和第二類詞所屬類別的標籤組成,則該匹配完成後的即時搜尋字串與預生成的某個模式相匹配,該匹配完成後的即時搜尋字串具有該模式表示的特定搜尋意圖。
- 根據申請專利範圍第1至3項之任一項所述的方法,其中,依據該特定搜尋意圖返回搜尋結果資料,包括:將與該特定搜尋意圖相對應的特定結果資料排在所有搜尋結果資料的第一位返回。
- 根據申請專利範圍第6項所述的方法,其中,該特定結果資料包括多個相關聯的元資料資訊,點擊每個元資料資訊的鏈結可進入相應的詳情頁面。
- 一種搜尋裝置,其特徵在於,包括:輸入模組,用於接收即時搜尋字串; 即時匹配模組,用於將該即時搜尋字串與預生成的詞典進行匹配,該詞典是第一類詞和第二類詞的集合;替換模組,用於當該即時搜尋字串中的某部分與詞典中的某個類別的第二類詞匹配上時,將該部分替換為該第二類詞所屬類別的標籤,匹配完成後的即時搜尋字串包含第一類詞和/或第二類詞所屬類別的標籤和/或未匹配上的部分;即時輸出模組,用於依據預生成的模式確定匹配完成後的即時搜尋字串的特定搜尋意圖,並依據該特定搜尋意圖返回搜尋結果資料。
- 根據申請專利範圍第8項所述的裝置,其中:該預生成的模式由元資料類別的標籤組成,和/或由意圖詞和元資料類別的標籤組成;該詞典中的第一類詞是該模式中的意圖詞;該詞典中的第二類詞是關係資料中的元資料。
- 根據申請專利範圍第9項所述的裝置,其中,還包括:模式生成模組,具體包括:替換子模組,用於將歷史搜尋資料中的歷史搜尋字串依次與關係資料中的元資料進行匹配,如果歷史搜尋字串中的某部分與某個類別的元資料匹配上,則將該部分替換為該元資料類別的標籤;統計子模組,用於統計匹配完成後的歷史搜尋字串出現的頻率次數,並基於該統計的頻率次數進行排序,將頻率次數超過閾值的匹配完成後的歷史搜尋字串作為模式。
- 一種搜尋引擎系統,其特徵在於,包括:如申請專利範圍第8至10項之任一項所述的搜尋裝置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110361975.3A CN103106220B (zh) | 2011-11-15 | 2011-11-15 | 一种搜索方法、搜索装置及一种搜索引擎系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201319842A true TW201319842A (zh) | 2013-05-16 |
Family
ID=47594974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101107359A TW201319842A (zh) | 2011-11-15 | 2012-03-05 | 搜尋方法、搜尋裝置及搜尋引擎系統 |
Country Status (7)
Country | Link |
---|---|
US (2) | US8959080B2 (zh) |
EP (1) | EP2780837A1 (zh) |
JP (2) | JP6006327B2 (zh) |
CN (2) | CN103106220B (zh) |
HK (1) | HK1181132A1 (zh) |
TW (1) | TW201319842A (zh) |
WO (1) | WO2013074685A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI645303B (zh) * | 2016-12-21 | 2018-12-21 | 財團法人工業技術研究院 | 字串驗證方法、字串擴充方法與驗證模型訓練方法 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544266B (zh) * | 2013-10-16 | 2017-05-31 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
US9418103B2 (en) * | 2013-12-06 | 2016-08-16 | Quixey, Inc. | Techniques for reformulating search queries |
CN105446982A (zh) * | 2014-06-30 | 2016-03-30 | 国际商业机器公司 | 用于管理数据存储系统的方法和装置 |
CN104462575B (zh) * | 2014-12-29 | 2019-03-08 | 北京奇虎科技有限公司 | 音乐综合搜索的实现方法和装置 |
CN105138535A (zh) * | 2015-06-30 | 2015-12-09 | 百度在线网络技术(北京)有限公司 | 一种搜索结果的展示方法及装置 |
CN104991943A (zh) * | 2015-07-10 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 音乐搜索方法及装置 |
US10867134B2 (en) * | 2016-09-02 | 2020-12-15 | Hitachi High-Tech Corporation | Method for generating text string dictionary, method for searching text string dictionary, and system for processing text string dictionary |
US11170005B2 (en) * | 2016-10-04 | 2021-11-09 | Verizon Media Inc. | Online ranking of queries for sponsored search |
CN106446235B (zh) * | 2016-10-10 | 2021-04-06 | Tcl科技集团股份有限公司 | 视频的搜索方法和装置 |
CN106844482B (zh) * | 2016-12-23 | 2021-01-29 | 北京奇虎科技有限公司 | 一种基于搜索引擎的检索信息匹配方法及装置 |
CN106933947B (zh) * | 2017-01-20 | 2018-12-04 | 北京三快在线科技有限公司 | 一种搜索方法及装置、电子设备 |
CN107480162B (zh) * | 2017-06-15 | 2021-09-21 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置、设备及计算机可读存储介质 |
CN107256267B (zh) | 2017-06-19 | 2020-07-24 | 北京百度网讯科技有限公司 | 查询方法和装置 |
CN107704525A (zh) * | 2017-09-04 | 2018-02-16 | 优酷网络技术(北京)有限公司 | 视频搜索方法和装置 |
CN110472058B (zh) * | 2018-05-09 | 2023-03-03 | 华为技术有限公司 | 实体搜索方法、相关设备及计算机存储介质 |
US10585922B2 (en) | 2018-05-23 | 2020-03-10 | International Business Machines Corporation | Finding a resource in response to a query including unknown words |
US11379487B2 (en) | 2018-08-27 | 2022-07-05 | International Business Machines Corporation | Intelligent and interactive knowledge system |
CN109543016A (zh) * | 2018-11-15 | 2019-03-29 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN109902149B (zh) | 2019-02-21 | 2021-08-13 | 北京百度网讯科技有限公司 | 查询处理方法和装置、计算机可读介质 |
CN110162535B (zh) * | 2019-03-26 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 用于执行个性化的搜索方法、装置、设备以及存储介质 |
CN109977294B (zh) * | 2019-04-03 | 2020-04-28 | 三角兽(北京)科技有限公司 | 信息/查询处理装置、查询处理/文本查询方法、存储介质 |
CN110489032B (zh) * | 2019-08-14 | 2021-08-24 | 掌阅科技股份有限公司 | 用于电子书的词典查询方法及电子设备 |
CN111090771B (zh) * | 2019-10-31 | 2023-08-25 | 腾讯音乐娱乐科技(深圳)有限公司 | 歌曲搜索方法、装置及计算机存储介质 |
CN111782962B (zh) * | 2020-09-04 | 2021-01-12 | 浙江口碑网络技术有限公司 | 模式匹配方法、装置及电子设备 |
CN112182321B (zh) * | 2020-09-28 | 2023-12-15 | 严永存 | 一种基于地图技术的互联网信息发布搜索方法 |
CN112163104B (zh) * | 2020-09-29 | 2022-04-15 | 北京字跳网络技术有限公司 | 搜索目标内容的方法、装置、电子设备及存储介质 |
CN112434072B (zh) * | 2021-01-27 | 2021-04-30 | 浙江口碑网络技术有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN112965992B (zh) * | 2021-03-22 | 2023-08-15 | 三门核电有限公司 | 多参数约束数据检索人机交互方法及装置 |
US20220398251A1 (en) * | 2021-06-14 | 2022-12-15 | Bank Of America Corporation | Data processing system and method for implementing a search engine based on detecting intent from a search string |
CN113312523B (zh) * | 2021-07-30 | 2021-12-14 | 北京达佳互联信息技术有限公司 | 字典生成、搜索关键字推荐方法、装置和服务器 |
CN117493641B (zh) * | 2024-01-02 | 2024-03-22 | 中国电子科技集团公司第二十八研究所 | 一种基于语义元数据的二次模糊搜索方法 |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6510412B1 (en) * | 1998-06-02 | 2003-01-21 | Sony Corporation | Method and apparatus for information processing, and medium for provision of information |
JP2002288201A (ja) * | 2001-03-23 | 2002-10-04 | Fujitsu Ltd | 質問応答処理方法,質問応答処理プログラム,質問応答処理プログラム記録媒体および質問応答処理装置 |
US7269545B2 (en) * | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
JP2003108584A (ja) * | 2001-09-28 | 2003-04-11 | Casio Comput Co Ltd | 情報検索システム及びプログラム |
US7840547B1 (en) * | 2004-03-31 | 2010-11-23 | Google Inc. | Methods and systems for efficient query rewriting |
US7519581B2 (en) * | 2004-04-30 | 2009-04-14 | Yahoo! Inc. | Method and apparatus for performing a search |
US7860875B2 (en) | 2004-05-26 | 2010-12-28 | International Business Machines Corporation | Method for modifying a query by use of an external system for managing assignment of user and data classifications |
US20060106769A1 (en) * | 2004-11-12 | 2006-05-18 | Gibbs Kevin A | Method and system for autocompletion for languages having ideographs and phonetic characters |
US7620628B2 (en) * | 2004-12-06 | 2009-11-17 | Yahoo! Inc. | Search processing with automatic categorization of queries |
US7401073B2 (en) | 2005-04-28 | 2008-07-15 | International Business Machines Corporation | Term-statistics modification for category-based search |
US7844599B2 (en) | 2005-08-24 | 2010-11-30 | Yahoo! Inc. | Biasing queries to determine suggested queries |
US8676868B2 (en) * | 2006-08-04 | 2014-03-18 | Chacha Search, Inc | Macro programming for resources |
CN101145153B (zh) * | 2006-09-13 | 2011-03-30 | 阿里巴巴集团控股有限公司 | 一种搜索信息的方法及系统 |
US7860886B2 (en) * | 2006-09-29 | 2010-12-28 | A9.Com, Inc. | Strategy for providing query results based on analysis of user intent |
US8010529B2 (en) | 2006-10-23 | 2011-08-30 | Yahoo! Inc. | System and method for determining a relationship between available content and current interests to identify a need for content |
US20080313142A1 (en) * | 2007-06-14 | 2008-12-18 | Microsoft Corporation | Categorization of queries |
US20090094224A1 (en) * | 2007-10-05 | 2009-04-09 | Google Inc. | Collaborative search results |
WO2009061390A1 (en) * | 2007-11-05 | 2009-05-14 | Enhanced Medical Decisions, Inc. | Machine learning systems and methods for improved natural language processing |
US8041733B2 (en) * | 2008-10-14 | 2011-10-18 | Yahoo! Inc. | System for automatically categorizing queries |
US20100094826A1 (en) * | 2008-10-14 | 2010-04-15 | Omid Rouhani-Kalleh | System for resolving entities in text into real world objects using context |
US20100094835A1 (en) * | 2008-10-15 | 2010-04-15 | Yumao Lu | Automatic query concepts identification and drifting for web search |
CN101770498A (zh) * | 2009-01-05 | 2010-07-07 | 李铭 | 分步搜索法 |
CN101770499A (zh) * | 2009-01-07 | 2010-07-07 | 上海聚力传媒技术有限公司 | 搜索引擎中的信息检索方法及相应搜索引擎 |
US8745076B2 (en) * | 2009-01-13 | 2014-06-03 | Red Hat, Inc. | Structured query language syntax rewriting |
US8533181B2 (en) * | 2009-04-29 | 2013-09-10 | Oracle International Corporation | Partition pruning via query rewrite |
US20100299342A1 (en) | 2009-05-22 | 2010-11-25 | Nbc Universal, Inc. | System and method for modification in computerized searching |
US8161035B2 (en) * | 2009-06-04 | 2012-04-17 | Oracle International Corporation | Query optimization by specifying path-based predicate evaluation in a path-based query operator |
US9405841B2 (en) | 2009-10-15 | 2016-08-02 | A9.Com, Inc. | Dynamic search suggestion and category specific completion |
US20120259829A1 (en) | 2009-12-30 | 2012-10-11 | Xin Zhou | Generating related input suggestions |
US8719246B2 (en) | 2010-06-28 | 2014-05-06 | Microsoft Corporation | Generating and presenting a suggested search query |
US20120117102A1 (en) * | 2010-11-04 | 2012-05-10 | Microsoft Corporation | Query suggestions using replacement substitutions and an advanced query syntax |
US8219575B2 (en) * | 2010-11-12 | 2012-07-10 | Business Objects Software Ltd. | Method and system for specifying, preparing and using parameterized database queries |
CN102043833B (zh) * | 2010-11-25 | 2013-12-25 | 北京搜狗科技发展有限公司 | 一种基于查询词进行搜索的方法和搜索装置 |
US8515986B2 (en) * | 2010-12-02 | 2013-08-20 | Microsoft Corporation | Query pattern generation for answers coverage expansion |
US8799312B2 (en) * | 2010-12-23 | 2014-08-05 | Microsoft Corporation | Efficient label acquisition for query rewriting |
CN102073725B (zh) * | 2011-01-11 | 2013-05-08 | 百度在线网络技术(北京)有限公司 | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 |
US20120179705A1 (en) * | 2011-01-11 | 2012-07-12 | Microsoft Corporation | Query reformulation in association with a search box |
CN102214208B (zh) * | 2011-04-27 | 2014-04-09 | 百度在线网络技术(北京)有限公司 | 一种基于非结构化文本生成结构化信息实体的方法与设备 |
US8667007B2 (en) * | 2011-05-26 | 2014-03-04 | International Business Machines Corporation | Hybrid and iterative keyword and category search technique |
US20130086509A1 (en) | 2011-09-29 | 2013-04-04 | Microsoft Corporation | Alternative query suggestions by dropping query terms |
-
2011
- 2011-11-15 CN CN201110361975.3A patent/CN103106220B/zh active Active
- 2011-11-15 CN CN201610311962.8A patent/CN105956137B/zh active Active
-
2012
- 2012-03-05 TW TW101107359A patent/TW201319842A/zh unknown
- 2012-11-14 WO PCT/US2012/065096 patent/WO2013074685A1/en active Application Filing
- 2012-11-14 US US13/677,147 patent/US8959080B2/en not_active Expired - Fee Related
- 2012-11-14 EP EP12816542.0A patent/EP2780837A1/en not_active Withdrawn
- 2012-11-14 JP JP2014541422A patent/JP6006327B2/ja not_active Expired - Fee Related
-
2013
- 2013-07-12 HK HK13108164.8A patent/HK1181132A1/zh not_active IP Right Cessation
-
2015
- 2015-01-05 US US14/589,883 patent/US9477761B2/en active Active
-
2016
- 2016-09-08 JP JP2016175645A patent/JP6291001B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI645303B (zh) * | 2016-12-21 | 2018-12-21 | 財團法人工業技術研究院 | 字串驗證方法、字串擴充方法與驗證模型訓練方法 |
Also Published As
Publication number | Publication date |
---|---|
US9477761B2 (en) | 2016-10-25 |
HK1181132A1 (zh) | 2013-11-01 |
US8959080B2 (en) | 2015-02-17 |
JP2016201153A (ja) | 2016-12-01 |
JP2014533407A (ja) | 2014-12-11 |
CN105956137B (zh) | 2019-10-01 |
JP6291001B2 (ja) | 2018-03-14 |
WO2013074685A1 (en) | 2013-05-23 |
JP6006327B2 (ja) | 2016-10-12 |
US20150161263A1 (en) | 2015-06-11 |
EP2780837A1 (en) | 2014-09-24 |
US20130124493A1 (en) | 2013-05-16 |
CN103106220B (zh) | 2016-08-03 |
CN103106220A (zh) | 2013-05-15 |
CN105956137A (zh) | 2016-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201319842A (zh) | 搜尋方法、搜尋裝置及搜尋引擎系統 | |
US10261954B2 (en) | Optimizing search result snippet selection | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
Shinzato et al. | Tsubaki: An open search engine infrastructure for developing information access methodology | |
CN104239340B (zh) | 搜索结果筛选方法与装置 | |
Gupta et al. | An overview of social tagging and applications | |
US20120109962A1 (en) | Taxonomy-Based Object Classification | |
WO2021082123A1 (zh) | 信息推荐方法及装置、电子设备 | |
WO2021196541A1 (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
US9251202B1 (en) | Corpus specific queries for corpora from search query | |
CN104503988A (zh) | 搜索方法及装置 | |
WO2021111400A1 (en) | System and method for enabling a search platform to users | |
CN103425767B (zh) | 一种提示数据的确定方法和系统 | |
Cantador et al. | Semantic contextualisation of social tag-based profiles and item recommendations | |
Bracamonte et al. | Extracting semantic knowledge from web context for multimedia IR: a taxonomy, survey and challenges | |
Djuana et al. | Personalization in tag ontology learning for recommendation making | |
Kalloubi et al. | Graph based tweet entity linking using DBpedia | |
Movahedian et al. | A semantic recommender system based on frequent tag pattern | |
Kahng et al. | Ranking objects by following paths in entity-relationship graphs | |
TWM523902U (zh) | 可收集關鍵字的搜尋引擎裝置 | |
Hampson et al. | Supporting personalized information exploration through subjective expert-created semantic attributes | |
Sejal et al. | Qrgqr: Query relevance graph for query recommendation | |
Noce et al. | Query and Product Suggestion for Price Comparison Search Engines based on Query-product Click-through Bipartite Graphs. | |
TW201131399A (en) | Indexing method and apparatus | |
TWI423053B (zh) | Domain Interpretation Data Retrieval Method and Its System |