TWI486800B - 用於使用編輯距離以及文件資訊的搜尋結果排序之系統與方法 - Google Patents
用於使用編輯距離以及文件資訊的搜尋結果排序之系統與方法 Download PDFInfo
- Publication number
- TWI486800B TWI486800B TW098106721A TW98106721A TWI486800B TW I486800 B TWI486800 B TW I486800B TW 098106721 A TW098106721 A TW 098106721A TW 98106721 A TW98106721 A TW 98106721A TW I486800 B TWI486800 B TW I486800B
- Authority
- TW
- Taiwan
- Prior art keywords
- word
- file
- string
- information
- edit distance
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Description
本發明係關於使用編輯距離以及文件資訊的搜尋結果排序。
在一典型之搜尋引擎服務中,使用者可藉由自一經索引之URL(全球資源定位器)集合中選擇與一查詢相匹配之最頂層相關之文件,以進入該查詢。為快速地服務於該等查詢,搜尋引擎利用一或多種方法(例如,一種反轉之索引資料結構)將關鍵字映射對映至文件。舉例而言,引擎所執行之一第一步驟可係為識別一候選文件集合,其中包含有該用戶查詢所指定之關鍵字之候選文件集合。該等關鍵字可位於文件主體或中繼資料,或者實際儲存於其它文件或資料庫中的關於此文件之其它中繼資料(例如錨文本)中。
在大的索引集合中,端視查詢詞之常見性而定,候選文件集合之基數可很大(例如,可能上百萬個)。搜尋引擎並非返回整個候選文件集合,而是執行一第二步驟以根據相關性對候選文件進行排序。通常,搜尋引擎利用一排序函數來預測一文件與一特定查詢之相關程度。該排序函數自該文件中取多個特徵作為輸入,並計算一數字,該數字使搜尋引擎能夠按所預測之相關性對該等文件進行排序。
就該排序函數預測一文件相關性之準確程度而言,該排序函數之品質最終取決於使用者對搜尋結果之滿意度或者平均而言使用者在多少次中找到了對於所提問題之答案。對系統之總體使用者滿意度可由一單一數字(或量度)近似表示,乃因可藉由改變排序函數而使該數字最佳化。
通常,針對代表性的一組查詢來計算該等量度,該等查詢係藉由對查詢日誌實施隨機取樣而被選出,且該等量度涉及到對該引擎為各該評價查詢所返回之每一結果分配相關性標記。然而,該等用於文件排序及相關性之方法仍不足以提供所期望之結果。
以下提供簡要概述,以提供對本文所述某些新穎實施例之基本理解。該概述既非係為詳盡綜述,亦非旨在標識關鍵/緊要元件或限定其範圍。其只是為了以簡要形式提供某些概念以作為下文所作更詳細說明之前序。
該架構提供一種用於根據一查詢字串從作為搜尋結果接收之文件中提取文件資訊並計算一資料字串與該查詢字串間之一編輯距離之機制。該資料字串可係對該文件之簡短、準確描述,該描述係自例如TAUC(標題、錨文本、URL(全球資源定位器)以及點擊)等文件資訊中獲得。編輯距離用於作為結果排序之一部分來確定文件相關性。該機制藉由採用與接近性相關之特徵集合來偵測整個查詢或該查詢之一部分之接近匹配項,進而提高了搜尋結果排序之相關性。
處理該編輯距離,以評價該查詢字串與包含文件資訊之一既定資料串流之接近程度。該架構包括對URL中之複合詞進行索引時間分離,以便能夠更有效地發現查詢詞。此外,利用對錨文本之索引時間過濾,找到該等文件結果中一或多者之前N個錨。利用TAUC,可將資訊輸入至一神經網路(例如2層式),以改良用於對搜尋結果排序之相關性量度。
為達成上述及相關目的,本文結合下文說明及附圖來描述某些例示性態樣。然而,該等態樣係用以說明本文所揭示原理之各種應用方式中之僅僅幾種,並意欲包括所有此等態樣及等價態樣。結合附圖閱讀下文詳細說明,本發明之其它優點及新穎特徵將變得顯而易見。
本文所揭示之架構藉由實施一與接近性相關之特徵集合以偵測整個查詢之接近匹配項或文件之相關精確中繼資料(例如標題、錨、URL或點擊)之匹配項,來提高搜尋結果之相關性。舉例而言,考量一查詢“company store”、一第一文件之文件標題“company store online”及一第二文件之文件標題“new NEC LCD monitors in company store”。假設對於第一文件及第二文件而言其它特性皆相同。為使一所選串流與該查詢匹配,需要進行一些編輯工作,該架構即根據該編輯工作量之大小為文件指派一得分。在本實例中,選擇文件標題進行評價。第一文件之標題僅需要一個刪除操作(刪除“online”一詞)便可實現完全匹配,而第二文件之標題則需要五次刪除(刪除詞“new”、“NEC”、“LCD”、“monitors”及“in”)。因此,計算出第一文件更具相關性。
標題係為TAUC(標題、錨、URL及點擊)文件資訊之一元素,為此,可對某些資料串流(例如一URL)應用處理以便可從複合詞中找到查詢詞。舉例而言,再次考量查詢“company store”,且URL為“www.company store.com”。結果,URL被分成四個部分(或詞):“www”、“company”、“store”及“com”。
現在參見附圖,其中在所有附圖中,相同參考編號用於指代相同元件。在下文說明中,為便於解釋起見,述及諸多具體細節以提供對本文之透徹理解。然而,顯然,無需該等具體細節亦可實施本發明。在其它情形中,以方塊圖形式顯示眾所習知之結構及裝置,以利於對其進行說明。
第1圖例示一由電腦實施之相關性系統100。系統100包括一處理組件102,用於根據一查詢字串110從一作為搜尋結果108接收之文件106中提取文件資訊104。系統100亦可包括一接近性組件112,用於計算一從文件資訊104導出之資料字串116與查詢字串110間之編輯距離114。編輯距離114用於確定文件106之相關性,以作為搜尋結果108之一部分。
用於產生資料字串116之文件資訊104可包括例如標題資訊(或字元)、鏈接資訊(例如URL字元)、點擊串流資訊、及/或錨文本(或字元)。處理組件102在索引時間中將文件資訊104之複合詞分離,以計算編輯距離114。處理組件102亦在索引時間中過濾例如錨文本等文件資訊,以計算排在頂部之一錨文本集合。
編輯距離114之計算係基於為增加資料字串116與查詢字串110間之接近性(使其更接近)而進行之詞插入及刪除。編輯距離114之計算亦可基於與為增加資料字串116與查詢字串110間之接近性(使其更接近)而進行之詞插入及刪除相關聯之成本。
考量根據在查詢字串110中進行詞插入及/或刪除來產生一資料字串116(例如TAUC)之情形。此種詞處理可根據四種操作來執行:將一非查詢字插入查詢字串110中;將一查詢詞插入查詢字串110中;從查詢字串110中刪除一TAUC詞;及/或從查詢字串110中刪除一非TAUC詞。
編輯距離114係基於插入及刪除操作,但不基於替換。可存在兩種為插入所定義之成本類型。考量根據查詢字串110產生資料字串116之情景。在該產生操作中,可將一字插入查詢字串110中,若該字存在於原始查詢字串110中,則成本被定義為1;否則,成本被定義為w1()。此處,w1係為一所調整之加權參數。舉例而言,若查詢字串110為AB,則產生資料字串ABC之成本高於產生資料字串ABA之成本。直觀上,在資料字串116中插入「不相關之字」會使整個資料字串116(例如TAUC)更不相關。
可存在兩種類型之刪除成本。同樣,考量根據查詢字串110產生資料字串116之情形。當在查詢字串110中刪除一詞時,若該詞存在於原始資料字串116中,則成本被定義為1;否則,成本被定義為w2()。
另一種類型之成本係位置成本。若在資料字串116之第一位置處發生一刪除或插入,則存在一額外成本(+w3)。直觀上,在該等兩字串(查詢字串110及資料字串116)起始處之匹配,其被賦予之重要性高於在該等字串靠後處之匹配。考量以下實例,其中查詢字串110係為“cnn”且資料字串116係為標題=“cnn.com-blur blur”。若在第一位置處發生插入及刪除,則其可明顯降低該解決方案之有效性。
第2圖例示一種用於計算編輯距離之實例性改良匹配演算法200之流程圖。儘管為使解釋簡明起見,將本文例如以流程圖形式顯示之一或多種方法顯示及描述成一系列動作,然而應理解及瞭解,該等方法並不受限於動作之次序,乃因根據該等方法,某些動作之執行次序可不同於本文所示及所述次序及/或與其它動作同時進行。舉例而言,熟習此項技術者將理解及瞭解,一種方法亦可被表示成一系列相互關聯之狀態或事件,例如狀態圖形式。而且,並非在一種方法中所示之所有動作皆係為一種新穎實施方案所必需的。
在200處,列舉查詢字串及資料(或目標)字串之元素。此係藉由將n設定為查詢字串(其中查詢字串中每一詞係為s[i])之長度並將m設定為目標(或資料)字串(其中目標字串中每一詞被標記為t[j])之長度來達成。在202中,構造一矩陣,該矩陣包含列0...m及行0...n(其中矩陣中每一詞被標記為d[j,i])。在204處,以一取決於不同刪除成本之值將第一列初始化,並以一取決於不同插入成本之值將第一行初始化。在206處,若n=0,則返回d[m,0]並退出;若m=0,則返回d[0,n]並退出,如在208處所示。在210處,檢查查詢字串之每一字元(i從1到n)。在212處,檢查目標資料字串之每一字元(j從1到m)。在214處,若查詢字串中之字元字串等於資料字串中之字元,則流程轉至216,在216中,成本為0並處理下一矩陣單元。換言之,若s[i]等於t[j],則成本為0且d[j,i]=d[j-1,i-1]。
若查詢字串單元中之字元不等於資料字串單元中之字元,則流程從214轉至218,在218中將當前單元設定為緊位於上面之單元或緊位於左邊之單元加上插入或刪除成本。換言之,若s[i]不等於t[j],則將矩陣之單元d[j,i]設定成等於以下中之最小者:緊位於上面之單元加上相應插入成本(被表示為d[j-1,i]+cost_insertion)或緊位於左邊之單元加上相應刪除成本(被表示為d[j,i-1]+cost_deletion)。在220處,重複步驟210、212、214、216及218直到完成。在222處,輸出在單元d[m,n]中所見之最終成本。應注意,該實例中cost_insertion及cost_deletion二者皆具有兩種值;舉例而言,對於插入成本,w1=1,w3=4,而對於刪除成本,w2=1,w4=26。
換言之,d[j,i]包含字串s[0...i]與t[0...j]間之編輯距離。按定義,d[0,0]=0(不需要進行編輯便會使一空字串等於空字串)。d[0,y]=d[0,y-1]+(w2或w4)。若已知形成字串d[0,y-1]使用了多少次編輯,則可將d[0,y]計算為d[0,y-1]+從目標字串刪除當前字元之成本,該成本可為w2或w4。若在s[0...n]與t[0...m]二者中皆存在當前字元,則使用成本w2,否則使用w4。d[x,0]=d[x-1,0]+(w1或w3)。若已知形成字串d[x-1,0]使用了多少次編輯,則可將d[x,0]計算為d[x-1,0]+將當前字元從s插入t中之成本,該成本可為w1或w3。若在s[0...n]與t[0...m]二者中皆存在當前字元,則使用成本w1,否則使用w3。
對於每一(j,i),若s[i]=t[j],則d[j,i]可等於d[j-1,i-1]。可計算字串t[j-1]與s[i-1]間之編輯距離,且若s[i]=t[j],則可對該等兩字串附加一共用字元以使該等字串相等而不造成編輯。因此,有三次移動被採用,其中選取為當前d[j,i]提供最小編輯距離之移動。換言之,
第3圖例示利用改良之編輯距離及匹配演算法,根據一查詢字串及資料字串處理及產生編輯距離。該過程涉及左右計算、上下計算及對角線計算中之一或多種。對照一目標詞資料字串“CBAX”(其中X表示一詞不存在於查詢字串中)處理一查詢詞字串“ABC”。計算一編輯距離之過程可按不同方式執行;然而,用於執行編輯距離之改良版本之具體細節係不同的,如根據所揭示之架構所計算。根據n×m構造一4×5矩陣300,其中查詢字串之n=3且資料字串之m=4。查詢字串302沿矩陣300之橫軸放置,目標資料字串304則沿矩陣300之豎軸放置。
本說明將使用被標記為具有四個行(0-3)及五個列(0-4)之矩陣300。藉由從列0、行0開始從左到右地應用第2圖所述之編輯距離匹配演算法,交叉單元d[0,0]接收到“0”,乃因將查詢字串ABC之空單元與目標資料字串CBAX之空單元相比較並不會導致為使查詢字串與目標資料字串相同而造成詞之插入或刪除。該等「詞」係為相同的,故編輯距離為0。
向右移動以將查詢字串302之詞A與列0之空單元相比較係使用一次刪除來使該等字串相同;因此,單元d[0,1]接收到值“1”。再次向右移動至行2,現在在查詢字串302之詞AB與目標資料字串行之空單元之間進行比較。因此,在查詢字串302中使用兩次刪除來使該等字串相同,從而使編輯距離“2”被置入單元d[0,2]。相同之過程亦適用於行3,其中將查詢字串302之詞ABC與目標字串行中之空單元相比較,利用三次刪除來使該等字串相同,從而使編輯距離“3”被置入單元d[0,3]。
向下到達列1並繼續從左到右,將查詢字串列之空單元與目標資料字串304之第一詞C相比較。使用一次刪除來使該等字串相同,故d[1,0]中之編輯距離為“1”。向右移動至行1,在查詢字串302之詞A與目標資料字串304之詞C之間進行比較。使用一次刪除及一次插入來使該等字串相同,故值“2”被插入單元d[1,1]中。跳至最末單元d[1,3],使ABC與C相匹配之匹配過程結果係使用兩次刪除,使單元d[1,3]中之編輯距離為“2”。為簡明起見並且為找到總編輯距離,移動至列4及行3,使詞ABC與詞CBAX匹配會在單元d[4,3]中得到一編輯距離“8”:在目標字串之第一詞C中使用插入/刪除而得到值“2”,詞B之間相匹配而得到值“0”,為使詞C與A相匹配而進行插入/刪除,從而得到值“2”,插入詞X而得到值“1”,以及因位置成本而得到值“3”,結果在單元d[4,3]中得到一最終編輯距離值“8”。
第4圖例示利用改良之編輯距離及匹配演算法,根據一查詢字串及目標資料字串處理及產生編輯距離值之另一實例。此處,產生一矩陣400,以根據以下權重將一查詢字串402(ABC)與一目標資料字串404(AB)相比較:插入成本cost_insertion之權重為w1=1及w3=4,刪除成本之權重為w2=1及w4=26。換言之,在列0中從左到右,使查詢字串之詞A與目標字串404前面之空單元相匹配之結果係在目標字串404中進行一次插入(詞A),從而得到單元d[0,1]之值為“1”。將查詢字串402之詞AB與目標字串404前面之空單元相匹配之結果係在目標字串404中進行兩次插入(詞AB),從而得到單元d[0,2]之值為“2”,且將查詢字串402之詞ABC與目標字串404前面之空單元相匹配之結果係在目標字串404中進行兩次插入(詞AB)加上詞C之值w4=26,從而得到單元d[0,3]之值為“28”,乃因詞C不同時在該等兩字串中。
在列1中從左到右(應理解,d[1,0]=1),使查詢字串402之詞A與目標字串404之詞A相匹配之結果係目標字串404與查詢字串402相等,從而得到單元d[1,1]之值為“0”,此係藉由自d[j-1,i-1]=d[0,0]=“0”取值而得到。使查詢字串402之詞AB與目標字串404之詞A相匹配之結果係在目標字串404中插入一次詞B而得到單元d[1,2]中之最小值“1”。對於單元d[1,3],使查詢字串402之詞ABC與目標字串404之詞A相匹配之結果得到一最小值,該最小值係與d[j-1,i]=d[0,3]之值加上w3而在d[1,3]中得到之值“28”和d[j,i-1]=d[1,2]之值1加上26所得到之值27進行比較相關聯,因詞C不同時處於該等兩字串中,故在d[1,3]中得到最小值“27”。
在列2中從左到右,使查詢字串402之詞A與目標字串404之詞AB相匹配之結果係在目標字串404中進行一次刪除而在單元d[2,1]中得到值“1”。對於單元d[2,2]中之距離,使查詢字串402之詞AB與目標字串404之詞AB相匹配之結果係相等,從而從d[j-1,i-1]=d[1,1]得到該值作為單元d[2,2]之值“0”。對於單元d[2,3],使查詢字串402之詞ABC與目標字串404之詞AB相匹配之結果得到一最小值,該最小值係與d[j-1,i]=d[1,3]=27之值加上w3=1而得到之值“28”和(因詞C並非在目標字串內,亦基於)d[i,j-1]=d[2,2]=0之值加上26所得到之值26進行比較相關聯,因詞C不同時處於該等兩字串中,故在d[2,3]中得到最小值“26”。
第5圖例示一由電腦實施之相關性系統500,其採用一神經網路502來幫助產生文件106之相關性得分504。系統500包括處理組件102和接近性組件112,處理組件102用於根據查詢字串110,從作為搜尋結果108接收之文件106中提取文件資訊104,接近性組件112則用於計算從文件資訊104導出之資料字串116與查詢字串110間之編輯距離114。編輯距離114用於確定文件106之相關性,以作為搜尋結果108之一部分。
神經網路502可用於接收文件資訊104作為一輸入,以用於計算文件106之一相關性得分。可僅根據或部分地根據某些或所有搜尋結果108之相關性得分,對搜尋結果108中之文件排序。系統500採用神經網路502及代碼庫來產生用於在搜尋結果108中對相關文件進行排序之相關性得分。
以下係對該編輯距離演算法之說明,該編輯距離演算法用於計算查詢字串與各該資料字串間之編輯距離以獲得每一對之TAUC得分。
因在一文件中僅存在一個標題,故可按下式根據標題來計算TAUC得分:
TAUC(Title)
=ED(Title)
其中TAUC(Title)
在應用一變換函數後隨後用作神經網路之一輸入,且ED(Title)
係為該標題之編輯距離。
可存在一文件之多個錨文本的情況,以及多個URL及點擊(其中點擊係為使該文件得到點擊的一先前執行之查詢)的情況。想法係為,對於類似之查詢,該文件更為相關。在索引時間中,選取具有最高頻率之N個錨文本。然後,針對每一所選錨計算ED得分。最後,按下式確定錨之TAUC得分:
TAUC(Anchor)
=Min{ED(Anchor i )}
i
:頂部的N個錨;
直觀地,若對於其中一個錨存在良好之匹配,便足以滿足要求。TAUC(Anchor)
係在應用一變換函數後用作一神經網路輸入。
在計算ED之前,對URL字串利用特殊處理。在索引時間中,使用一字元集合作為分離符將URL字串分離成多個部分。然後,在每一部分中找到來自一標題及錨詞字典之詞。將字典中之詞之每一次出現儲存於一索引中,該索引之位置係以距URL字串起始處之字元數進行量測。
在查詢時間中,從在索引時間中所儲存之索引讀取查詢詞之每一次出現,並以「非查詢」詞填充斷點。在該處理之後,計算ED。在應用一變換函數之後,ED處理之結果係為一神經網路輸入。
可被處理之另一特性係為使用者針對一既定文件內容所輸入之「點擊」次數。每當一使用者點擊該文件時,皆將一串流輸入一資料庫並使其與該文件相關聯。該過程亦可應用於文件資訊文本中之串流資料,例如短的資料串流。
索引時間URL處理演算法利用一字元集合作為分離符,將整個URL分離成多個部分。該分離功能亦將urlpart.startpos設定為源字串中一部分之位置。該分離功能執行對URL各無用部分之過濾。
舉例而言,“http://www.companymeeting.com/index.html”被過濾成“companymeeting/index”並被分離成“companymeeting”和“index”。
假設字典包含“company meeting comp”,可產生以下關鍵字:Company:0;Meeting:7;及Comp:0。該字串之總長度係為parts_separator*2。
對於在ED之前之查詢時間處理,在查詢時間中,讀取查詢詞之出現,按在源URL中之出現次序來構造一查詢詞字串,並以「非查詢」字標記填充各詞間之空間。舉例而言,考量一查詢字串“company policy”及一結果字串“company”「非查詢詞」「非查詢詞」。
確定一parts_separator、多個查詢詞位置、及串流長度,以得知在原始URL字串中具有多少個部分以及哪一部分包含一既定查詢。每一無查詢詞之部分皆被視為包含一「非查詢詞」。若某一部分不以一查詢詞開頭,則在該詞之前插入一「非查詢詞」。各查詢詞間之所有空間皆被填充以「非查詢詞」。
第6圖例示可在文件資訊104中用於確定查詢字串與資料字串間之編輯距離之資料類型。文件資訊104可包括TAUC資料602,例如標題文本604、錨文本606、URL 608文本或字元、以及點擊資訊610,以供處理組件102處理並用於產生資料(或目標)字串116。文件資訊104亦可包括與一使用者點擊文件內容之次數、使用者(藉由點擊)所選之內容類型、點擊內容之次數、文件總體等相關之點擊資訊610。
第7圖例示一索引時間處理資料流700。在頂部,根據文件分析及提取,接收呈標題604、文件錨606、點擊資訊610等形式之文件資訊。藉由一詞分離演算法704處理標題604,然後將標題604提供至一字典706。字典706係對在標題604、錨606、點擊資訊610等中所見之不同詞之暫時儲存。字典706用以藉由一URL分離演算法708分離URL 608。URL分離演算法708之輸出被發送至一索引過程710以用於相關性及排序處理。文件錨606亦可經一用於頂部N個錨之過濾器712處理。點擊資訊610可直接透過該索引過程710處理。可相應地處理其它文件資訊(例如詞分離、過濾等)。
第8圖例示一方塊圖800,其顯示來自第7圖所示索引過程710的用於結果排序之神經網路輸入。索引過程710可用於計算相對於查詢字串110之一URL編輯距離(ED)802、相對於查詢字串110之一頂部N個錨之ED、相對於查詢字串110之一標題ED 806、相對於查詢字串110之一點擊ED 808、以及其它與編輯距離無關之特徵810,其中之某些或全部(URL ED 802、頂部N個錨ED 804、標題ED 806、點擊ED 808及其它特徵810)可用作神經網路502之輸入,以最終找到該相關聯文件之相關性得分並隨後得到該文件在其它文件搜尋結果中之排序。神經網路502可係為一2層式模型,其接收至少該等TAUC特徵作為原始輸入特徵來用於識別文件之相關性。該神經網路確定如何將該等特徵組合成一單一數字,該單一數字可供搜索引擎用於分類。
應瞭解,神經網路502僅係為可用於相關性及排序處理之數學或計算模型之一實例。亦可採用其它形式之統計回歸(例如Bayes、Bayesian網路、決策樹、模糊邏輯模型),並可採用其它代表不同獨立性圖案之統計分類模型,其中分類係包含用於分配等級及/或優先權之方法。
第9圖例示神經網路502、編輯距離輸入及用於計算和產生搜尋結果之原始特徵輸入之實例性系統900實施方式。神經網路502之該(等)輸入上之原始排序特徵集合810可包括一BM25函數902(例如BM25F)、點擊距離904、URL深度906、文件類型908,及語言匹配910。BM25組件可例如包括主體、標題、作者、錨文本、URL顯示器名稱,及所提取之標題。
第10圖例示一種用於確定相關性之方法。在1000處,接收一查詢字串,該查詢字串係作為一搜尋過程之一部分。在1002處,從在搜尋過程期間返回之一文件中提取文件資訊。在1004處,根據文件資訊產生一資料字串。在1006處,計算資料字串與查詢字串間之編輯距離。在1008處,根據編輯距離計算一相關性得分。
該方法之其它態樣可包括採用詞插入作為計算編輯距離之一部分,以及評估為產生資料字串而將一詞插入查詢字串之插入成本,該成本被表示為一加權參數。該方法可更包括採用詞刪除作為計算編輯距離之一部分,以及評估為產生資料字串而刪除查詢字串中之一詞之刪除成本,該成本被表示為一加權參數。可計算一位置成本,該位置成本作為計算編輯距離之一部分,該位置成本與資料字串中一詞位置之詞插入及/或詞刪除相關聯。另外,在資料字串之字元與查詢字串之字元之間執行一匹配過程,以計算編輯距離之總體計算成本。
資料字串之URL之複合詞分離可發生於索引時間中。該方法可更包括根據在文件中之出現頻率,過濾資料字串之錨文本以找到排在頂部之一錨文本集合,並計算該集合中錨文本之編輯距離得分。在應用一變換函數之後,藉由計算編輯距離所導出之編輯距離得分可被輸入至一兩層式神經網路,該得分係根據計算與以下中至少一者相關聯之編輯距離而產生:標題資訊,錨資訊,點擊資訊,或URL資訊。
第11圖例示一種計算文件相關性之方法。在1100處,處理一查詢字串,該查詢字串作為一搜尋過程之一部分,以返回一文件結果集合。在1102處,根據從該結果集合中之一文件所提取之文件資訊,產生一資料字串,該文件資訊包括以下中之一或多者:來自該文件之標題資訊、錨文本資訊、點擊資訊、及URL資訊。在1104處,根據詞插入、詞刪除及詞位置,計算資料字串與查詢字串間之編輯距離。在1106處,根據編輯距離計算一相關性得分,該相關性得分用於在結果集合中對該文件進行排序。
該方法可更包括計算與詞插入、詞刪除及詞位置中之每一者相關聯之成本、將該成本之因素納入相關性得分之計算、在索引時間中分離URL資訊之複合詞,以及在索引時間中根據錨文本在文件中出現之頻率過濾錨文本資訊以找到排在頂部之錨文本集合。可執行對查詢字串中各詞之出現之讀取,以按在一源URL字串中之出現次序構造一查詢詞字串並以字標記填充該等詞間之空間。
本申請案中所用之措詞「組件」及「系統」旨在指代一與計算機相關之實體,其可係為硬體、硬體與軟體之組合、軟體,或執行中之軟體。舉例而言,一組件可係為但不限於:在一處理器上運行之一過程、一處理器、一影碟機、多個(光學及/或磁性儲存媒體之)儲存碟、一對象、一可執行檔、一執行緒、一程式、及/或一電腦。作為例示,在一伺服器上運行之程式與該伺服器二者皆可係為一組件。一或多個組件可駐存於一過程及/或執行緒內,並且一組件可侷限於一個電腦上及/或分佈於二或更多個電腦上。
現在參見第12圖,其例示一計算系統1200之方塊圖,該計算系統可操作以根據所揭示之架構,利用TAUC特徵執行編輯距離處理以進行搜尋結果排序。為對其不同態樣提供額外之語境,第12圖及下文之論述旨在對一適宜計算系統1200提供簡要之大體說明,在該計算系統1200中可執行該等不同態樣。儘管以上說明係在可在一或多個電腦上運行之電腦可執行指令之大體語境中進行,然而熟習此項技術者將知,亦可與其它程式模組相組合地實施一新穎實施例及/或將該新穎實施例實施為硬體與軟體之組合。
一般而言,程式模組包括用於執行特定任務或實施特定抽象資料類型之常式、程式、組件、資料結構等等。而且,熟習此項技術者將瞭解,本發明之方法亦可以其它電腦系統組態實施,包括單一處理器或多處理器電腦系統、微電腦、主機電腦,以及個人電腦、手持式計算裝置、基於微處理器之或可程式化之消費電子產品等等,其分別可操作地耦合至一或多個關聯裝置。
所示各態樣亦可實施於分佈式計算環境中,其中某些任務係由透過一通信網路進行鏈接之遠端處理裝置執行。在一分佈式計算環境中,程式模組可位於本地記憶體儲存裝置與遠端記憶體儲存裝置二者上。
一電腦通常包括各種各樣之電腦可讀媒體。電腦可讀媒體可係為任何可由電腦存取之可用媒體,並包括揮發性及非揮發性媒體、可移除式及不可移除式媒體。例如但不限於,電腦可讀媒體可包括電腦儲存媒體及通信媒體。電腦儲存媒體包括以任何方法或技術實施之揮發性及非揮發性、可移除式及不可移除式媒體,用於儲存例如電腦可讀指令、資料結構、程式模組或其它資料等資訊。電腦儲存媒體包括但不限於RAM、ROM、EEPROM、快閃記憶體或其它記憶體技術、CD-ROM、數位視訊光碟(DVD)或其它光碟儲存器、磁性卡匣、磁帶、磁碟儲存器或其它磁性儲存裝置,抑或任何其它可用於儲存所需資訊並可由電腦存取之媒體。
再次參見第12圖,用於實施各種態樣之實例性計算系統1200包括一電腦1202,電腦1202具有一處理單元1204、一系統記憶體1206及一系統匯流排1208。系統匯流排1208為包括但不限於系統記憶體1206之系統組件提供通往處理單元1204之介面。處理單元1204可係為各種市售處理器其中之任一種。亦可採用雙重微處理器及其它多處理器架構作為處理單元1204。
系統匯流排1208可係為多種匯流排結構類型中之任一種,該匯流排結構可更使用各種市售匯流排架構中之任一種互連至一記憶體匯流排(具有或不具有一記憶體控制器)、一周邊匯流排、以及一本地匯流排。系統記憶體1206可包括非揮發性記憶體(NON-VOL)1210及/或揮發性記憶體1212(例如隨機存取記憶體(RAM))。一基本輸入/輸出系統(BIOS)可儲存於非揮發性記憶體1210(例如ROM、EPROM、EEPROM等等)中,該BIOS係為基本常式,有助於在電腦1202內之各元件之間傳送資訊,例如在啟動期間。揮發性記憶體1212亦可包括一用於快取資料之高速RAM,例如靜態RAM。
電腦1202更包括一內部硬碟機(HDD)1214(例如EIDE、SATA)、一軟磁碟驅動機(FDD)1216(例如用於對一可移除式磁碟1218進行讀取或寫入)及一光碟機1220(例如讀取一CD-ROM碟1222或對例如DVD等其它高容量光學媒體進行讀取或寫入),其中該內部HDD 1214亦可被組態成外用於一適用之底盤上。HDD 1214、FDD 1216及光碟機1220可分別透過一HDD介面1224、一FDD介面1226及一光碟機介面1228連接至系統匯流排1208。用於外部驅動實施方案之HDD介面1224可包括通用串列匯流排(USB)與IEEE 1394介面技術至少其中之一或同時包括二者。
該等驅動機及相關聯之電腦可讀媒體提供對資料、資料結構、電腦可執行指令等等之非揮發性儲存。對於電腦1202,該等驅動機及媒體容許以一適宜之數位格式儲存任何資料。儘管以上對電腦可讀媒體之描述係指一HDD、一可移除式磁碟(例如FDD)以及例如CD或DVD等可移除式光學媒體,然而熟習此項技術者應瞭解,可由電腦讀取之其它類型之媒體(例如zip驅動機、磁性卡匣、快閃記憶卡、匣式磁帶等等)亦可用於該實例性作業環境中,且進一步,任何此等媒體皆可包含電腦可執行指令以用於執行所揭示架構之新穎方法。
該等驅動機及揮發性記憶體1212中可儲存若干程式模組,包括一作業系統1230、一或多個應用程式1232、其它程式模組1234,及程式資料1236。該一或多個應用程式1232、其它程式模組1234,及程式資料1236可包括系統100及關聯區塊、系統500及關聯區塊、文件資訊104、TAUC資料602、點擊資訊610、資料流700(及演算法),以及方塊圖800(及關聯區塊)。
作業系統、應用程式、模組,及/或資料之全部或某些部分亦可被快取於揮發性記憶體1212中。應瞭解,可使用不同市售作業系統或作業系統之組合來實施所揭示架構。
使用者可透過一或多個有線/無線輸入裝置(例如,鍵盤1238及指標裝置,例如滑鼠1240)輸入命令及資訊至電腦1202中。其它輸入裝置(圖未示)可包括麥克風、IR遠端控制器、操縱桿、遊戲搖桿、指示筆、觸控螢幕等等。該等及其它輸入裝置常常透過一與系統匯流排1208相耦合之輸入裝置介面1242連接至處理單元1204,但亦可藉由例如並列埠、IEEE 1394串列埠、遊戲埠、USB埠、IR介面等其它介面相連。
一監視器1244或其它類型之顯示裝置亦透過一介面(例如一視訊配接器1246)連接至系統匯流排1208。除監視器1244外,電腦還通常包括其它周邊輸出裝置(圖未示),例如揚聲器、列印機等等。
電腦1202可利用邏輯連接,藉由與一或多個遠端電腦(例如一或多個遠端電腦1248)之有線及/或無線通信,在一聯網環境中運作。該(等)遠端電腦1248可係為一工作站、一伺服器電腦、一選路器、一個人電腦、可攜式電腦、基於微處理器之娛樂裝置、一對等裝置或其它常用網路節點,且通常包括上文關於電腦1202所述之許多或所有元件,儘管為簡明起見,圖中僅示出一記憶體/儲存裝置1250。所描繪之邏輯連接包括與一局部區域網路(LAN)1252及/或更大網路(例如一廣域網路(WAN)1254)之有線/無線連接性。此等LAN及WAN聯網環境在辦公室及公司中很常見,並有利於達成企業範圍之電腦網路,例如內部網路,所有該等網路皆可連接至一全球通信網路,例如網際網路。
當用於一LAN聯網環境時,電腦1202透過一有線及/或無線通信網路介面或配接器1256連接至LAN 1252。配接器1256可有利於與LAN 1252之有線及/或無線通信,LAN 1252亦可包括一設置於其上之無線存取點,以用於與配接器1256之無線功能進行通信。
當用於一WAN聯網環境時,電腦1202可包括一數據機1258,或者連接至WAN 1254上之一通信伺服器,抑或具有其它用於在WAN 1254上建立通信之手段(例如藉由網際網路)。數據機1258可處於內部或外部且係為一有線及/或無線裝置,其透過輸入裝置介面1242連接至系統匯流排1208。在一聯網環境中,關於電腦1202所描繪之程式模組或其某些部分可儲存於遠端記憶體/儲存裝置1250中。應瞭解,所示網路連接係為實例性的,亦可使用其它用於在各電腦之間建立通信鏈接之裝置。
電腦1202可運作以與利用IEEE 802標準家族之有線及無線裝置或實體進行通信,諸如被可操作地設置成與例如以下裝置進行無線通信(例如,IEEE 802.11空中調變技術)之無線裝置:列印機、掃描儀、桌上型及/或可攜式電腦、個人數位助理(PDA)、通信衛星、任何與一可無線偵測之標簽相關聯之設備或位置(例如售貨亭、報攤、休息室)以及電話。此包括至少Wi-Fi(或Wireless Fidelity)、WiMax及BluetoothTM
無線技術。因此,通信可如在一習知網路中一樣為一預定義結構,或者簡單地為至少兩個裝置間之專門通信。Wi-Fi網路利用被稱為IEEE 802.11x(a、b、g等等)之無線電技術提供安全、可靠、快速之無線連接性。一Wi-Fi網路可用於將各電腦相互連接、連接至網際網路,以及連接至有線網路(其使用IEEE 802.3相關媒體及功能)。
上文說明包括所揭示架構之實例。當然,不可能描述組件及/或方法之每一可設想之組合,但此項技術中之通常知識者可知,亦可存在諸多進一步之組合及排列。因此,該新穎架構旨在囊括仍歸屬於隨附申請專利範圍之精神及範圍內之所有此等改動、修改及變化。此外,對於在本詳細說明或申請專利範圍中所用之措詞「包括(include)」而言,該措詞旨在具有與措詞「包括(comprising)」在申請專利範圍項中用作轉接詞時相類似之包括方式。
100...由電腦實施之相關性系統
102...處理組件
104...文件資訊
106...文件
108...搜尋結果
110...查詢字串
112...接近性組件
114...編輯距離
116...資料字串
300...矩陣
302...查詢字串
304...目標資料字串
400...矩陣
402...查詢字串
404...目標資料字串
500...由電腦實施之相關性系統
502...神經網路
504...相關性得分
602...TAUC資料
604...標題文本
606...錨文本
608...URL文本或字元
610...點擊資訊
700...索引時間處理資料流
704...詞分離演算法
706...字典
708...URL分離演算法
710...索引過程
712...過濾器
800...方塊圖
802...URL編輯距離(ED)
804...頂部N個錨ED
806...標題ED
808...點擊ED
810...其它特徵
900...實例性系統
902...BM25函數
904...點擊距離
906...URL深度
908...文件類型
910...語言匹配
1200...實例性計算系統
1202...電腦
1204...處理單元
1206...系統記憶體
1208...系統匯流排
1210...非揮發性記憶體(NON-VOL)
1212...揮發性記憶體
1214...內部硬碟機(HDD)
1216...軟磁碟驅動機(FDD)
1218...可移除式磁碟
1220...光碟機
1222...CD-ROM碟
1224...HDD介面
1226...FDD介面
1228...光碟機介面
1230...作業系統
1232...應用程式
1234...程式模組
1236...程式資料
1238...鍵盤
1240...滑鼠
1244...監視器
1246...視訊配接器
1248...遠端電腦
1250...記憶體/儲存裝置
1252...局部區域網路(LAN)
1254...廣域網路(WAN)
1256...配接器
1258...數據機
第1圖例示一由電腦實施之相關性系統。
第2圖例示一種用於計算編輯距離之實例性匹配演算法之流程圖。
第3圖例示利用改良之編輯距離及匹配演算法,根據一查詢字串及資料字串處理及產生編輯距離值。
第4圖例示利用改良之編輯距離及匹配演算法,根據一查詢字串及資料字串處理及產生編輯距離值之另一實例。
第5圖例示一由電腦實施之相關性系統,其採用一神經網路來幫助產生文件之相關性得分。
第6圖例示可在文件資訊中用於確定查詢字串與資料字串間之編輯距離之資料類型。
第7圖例示一索引時間處理資料流。
第8圖例示一方塊圖,其顯示來自第7圖所示索引過程的用於結果排序之神經網路輸入。
第9圖例示一神經網路、編輯距離輸入及用於計算和產生搜尋結果之原始特徵輸入之實例性系統實施方式。
第10圖例示一種用於確定一文件結果集合之文件相關性之方法。
第11圖例示一種計算文件相關性之方法。
第12圖例示一計算系統之方塊圖,該計算系統可操作以根據本文所揭示之架構,利用TAUC特徵執行編輯距離處理以進行搜尋結果排序。
200~222...步驟流程
Claims (20)
- 一種由電腦實施之相關性系統,包含:一或更多個處理器;以及一記憶體,耦接至該一或更多個處理器,該記憶體儲存指令,在藉由該一或更多個處理器執行該等指令時,使該一或更多個處理器實行以下步驟:根據一查詢字串從作為搜尋結果接收之一文件中提取文件資訊,該文件資訊包括一全球資源定位器,其中該全球資源定位器包括一複合詞;將該複合詞分離為多個單一詞;在詞之一字典中找到該等多個單一詞中之至少一者;根據所提取之該文件資訊產生一目標資料字串,該目標資料字串包括在該字典中找到的該等多個單一詞中之一者;以及計算該目標資料字串與該查詢字串間之編輯距離,該編輯距離用於確定一文件之相關性以作為結果排序之一部分。
- 如申請專利範圍第1項所述之系統,其中該文件資訊包括一標題資訊、全球資源定位器資訊、點擊資訊、或錨文本。
- 如申請專利範圍第1項所述之系統,其中在索引時間中將該文件資訊之該等複合詞分離,以計算相對於該全球資源定位器之該編輯距離。
- 如申請專利範圍第1項所述之系統,進一步包含用於在 索引時間中過濾該文件資訊之錨文本,以計算排在頂部之錨文本之一集合之指令。
- 如申請專利範圍第1項所述之系統,其中該文件資訊包括標題字元、錨字元、或點擊字元中至少之一者,且其中該系統進一步包括一神經網路,該神經網路可操作以根據該文件資訊以及一BM25F函數、點擊距離、文件類型、語言及全球資源定位器深度之原始輸入特徵而計算該文件之相關性。
- 如申請專利範圍第1項所述之系統,其中該編輯距離係根據詞插入及刪除而計算,以增大該目標資料字串與該查詢字串間之接近性。
- 如申請專利範圍第1項所述之系統,其中該編輯距離係根據詞插入及刪除相關聯之成本而計算,以增大該目標資料字串與該查詢字串間之接近性。
- 一種由電腦執行之確定一文件之相關性之方法,包含以下步驟:接收一查詢字串,該查詢字串作為一搜尋過程之一部分;從包括在該搜尋過程期間返回之一文件中之文件資訊提取一全球資源定位器,其中該全球資源定位器包括一複合詞;藉由將該全球資源定位器之該複合詞分離為多個單一詞,並在詞之一字典中找到該等多個單一詞中之至少一者,而從該全球資源定位器產生一目標資料字串; 計算該目標資料字串與該查詢字串間之編輯距離;以及根據該編輯距離,計算一相關性得分。
- 如申請專利範圍第8項所述之方法,進一步包含以下步驟:採用詞插入作為計算該編輯距離之一部分,並評估將一詞插入該查詢字串中以產生該目標資料字串之一插入成本,該成本被表示為一加權參數。
- 如申請專利範圍第8項所述之方法,進一步包含以下步驟:採用詞刪除作為計算該編輯距離之一部分,並評估刪除該查詢字串中之一詞以產生該目標資料字串之一刪除成本,該成本被表示為一加權參數。
- 如申請專利範圍第8項所述之方法,進一步包含以下步驟:計算一位置成本作為計算該編輯距離之一部分,該位置成本與該目標資料字串中一詞位置之詞插入及詞刪除之一或更多者相關聯。
- 如申請專利範圍第8項所述之方法,進一步包含以下步驟:在該目標資料字串之字元與該查詢字串之字元之間執行一匹配過程,以計算該編輯距離之一總體計算成本。
- 如申請專利範圍第8項所述之方法,進一步包含以下步驟:在索引時間中分離該全球資源定位器之複合詞。
- 如申請專利範圍第8項所述之方法,進一步包含以下步驟:根據在該文件中之出現頻率過濾該目標資料字串之錨文本,以找到排在頂部之錨文本之一集合。
- 如申請專利範圍第14項所述之方法,進一步包含以下 步驟:計算該集合中錨文本之一編輯距離得分。
- 如申請專利範圍第8項所述之方法,進一步包含以下步驟:在應用一變換函數後,將從該編輯距離之計算中導出之一得分輸入一兩層式神經網路,該得分係根據計算與標題資訊、錨資訊、點擊資訊、或全球資源定位器資訊、以及其他原始輸入特徵中之至少一者相關聯之該編輯距離而產生。
- 一種由電腦執行之計算一文件之相關性之方法,包含以下步驟:處理一查詢字串,該查詢字串作為一搜尋過程之一部分,以返回一文件結果集合;根據從該結果集合之一文件中提取之文件資訊,產生一目標資料字串,該文件資訊包括一全球資源定位器,其中該全球資源定位器包括一複合詞,其中產生該目標資料字串之步驟包括以下步驟:將該複合詞分離為多個單一詞,並在詞之一字典中找到該等多個單一詞中之至少一者;根據詞插入、詞刪除、及詞位置,計算該目標資料字串與該查詢字串間之編輯距離;以及根據該編輯距離,計算一相關性得分,該相關性得分用於在該結果集合中對該文件進行排序。
- 如申請專利範圍第17項所述之方法,進一步包含以下步驟:計算與該詞插入、詞刪除及詞位置中之每一者相關聯之一成本,並將該成本之因素納入該相關性得分之計算中。
- 如申請專利範圍第17項所述之方法,進一步包含以下步驟:在索引時間中分離該全球資源定位器資訊之複合詞,以及在索引時間中根據該錨文本在該文件中出現之頻率過濾該錨文本資訊以找到排在頂部之錨文本之一集合。
- 如申請專利範圍第17項所述之方法,進一步包含以下步驟:讀取該查詢字串之詞之出現,以依照在一源全球資源定位器字串中之出現次序構造一查詢詞字串,並以字標記填充該等詞間之空間。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/101,951 US8812493B2 (en) | 2008-04-11 | 2008-04-11 | Search results ranking using editing distance and document information |
Publications (2)
Publication Number | Publication Date |
---|---|
TW200945079A TW200945079A (en) | 2009-11-01 |
TWI486800B true TWI486800B (zh) | 2015-06-01 |
Family
ID=41162189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW098106721A TWI486800B (zh) | 2008-04-11 | 2009-03-02 | 用於使用編輯距離以及文件資訊的搜尋結果排序之系統與方法 |
Country Status (12)
Country | Link |
---|---|
US (1) | US8812493B2 (zh) |
EP (1) | EP2289007B1 (zh) |
JP (1) | JP5492187B2 (zh) |
KR (1) | KR101557294B1 (zh) |
CN (1) | CN101990670B (zh) |
AU (1) | AU2009234120B2 (zh) |
BR (1) | BRPI0909092A2 (zh) |
IL (1) | IL207830A (zh) |
RU (1) | RU2501078C2 (zh) |
TW (1) | TWI486800B (zh) |
WO (1) | WO2009126394A1 (zh) |
ZA (1) | ZA201006093B (zh) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US8065310B2 (en) | 2008-06-25 | 2011-11-22 | Microsoft Corporation | Topics in relevance ranking model for web search |
US20100312793A1 (en) * | 2009-06-08 | 2010-12-09 | International Business Machines Corporation | Displaying relevancy of results from multi-dimensional searches using heatmaps |
KR101141498B1 (ko) * | 2010-01-14 | 2012-05-04 | 주식회사 와이즈넛 | 근접성 언어 모델을 이용한 정보 검색 방법 |
US10140339B2 (en) * | 2010-01-26 | 2018-11-27 | Paypal, Inc. | Methods and systems for simulating a search to generate an optimized scoring function |
TWI486797B (zh) * | 2010-03-09 | 2015-06-01 | Alibaba Group Holding Ltd | Methods and devices for sorting search results |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US9189549B2 (en) * | 2010-11-08 | 2015-11-17 | Microsoft Technology Licensing, Llc | Presenting actions and providers associated with entities |
CA2747153A1 (en) * | 2011-07-19 | 2013-01-19 | Suleman Kaheer | Natural language processing dialog system for obtaining goods, services or information |
US8788436B2 (en) | 2011-07-27 | 2014-07-22 | Microsoft Corporation | Utilization of features extracted from structured documents to improve search relevance |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US9235654B1 (en) * | 2012-02-06 | 2016-01-12 | Google Inc. | Query rewrites for generating auto-complete suggestions |
US9535888B2 (en) * | 2012-03-30 | 2017-01-03 | Bmenu As | System, method, software arrangement and computer-accessible medium for a generator that automatically identifies regions of interest in electronic documents for transcoding |
CN103077163B (zh) * | 2012-12-24 | 2015-07-08 | 华为技术有限公司 | 数据预处理方法、装置及系统 |
JP5981386B2 (ja) * | 2013-04-18 | 2016-08-31 | 日本電信電話株式会社 | 代表ページ選択装置及び代表ページ選択プログラム |
KR101322123B1 (ko) * | 2013-06-14 | 2013-10-28 | 인하대학교 산학협력단 | 교환 연산을 포함한 확장편집거리의 계산을 병렬적으로 수행하기 위한 방법 |
CN104424279B (zh) * | 2013-08-30 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
US9519859B2 (en) | 2013-09-06 | 2016-12-13 | Microsoft Technology Licensing, Llc | Deep structured semantic model produced using click-through data |
US9477654B2 (en) | 2014-04-01 | 2016-10-25 | Microsoft Corporation | Convolutional latent semantic models and their applications |
US9535960B2 (en) | 2014-04-14 | 2017-01-03 | Microsoft Corporation | Context-sensitive search using a deep learning model |
US10089580B2 (en) | 2014-08-11 | 2018-10-02 | Microsoft Technology Licensing, Llc | Generating and using a knowledge-enhanced model |
CN104572825B (zh) * | 2014-12-04 | 2019-03-12 | 百度在线网络技术(北京)有限公司 | 信息的推荐方法和装置 |
US10489463B2 (en) * | 2015-02-12 | 2019-11-26 | Microsoft Technology Licensing, Llc | Finding documents describing solutions to computing issues |
CN107636693B (zh) * | 2015-03-20 | 2022-01-11 | 弗劳恩霍夫应用研究促进协会 | 针对人工神经网络的相关性分数指派 |
US11281639B2 (en) * | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
CN106815196B (zh) * | 2015-11-27 | 2020-07-31 | 北京国双科技有限公司 | 软文展现次数统计方法和装置 |
CN105446957B (zh) * | 2015-12-03 | 2018-07-20 | 小米科技有限责任公司 | 相似性确定方法、装置及终端 |
CN107203567A (zh) * | 2016-03-18 | 2017-09-26 | 伊姆西公司 | 用于搜索字串的方法和设备 |
US10909450B2 (en) | 2016-03-29 | 2021-02-02 | Microsoft Technology Licensing, Llc | Multiple-action computational model training and operation |
CN106547871B (zh) * | 2016-10-31 | 2020-04-07 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN107229701B (zh) * | 2017-05-25 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 排名更新方法、装置和计算机设备 |
US20190251422A1 (en) * | 2018-02-09 | 2019-08-15 | Microsoft Technology Licensing, Llc | Deep neural network architecture for search |
US10650191B1 (en) | 2018-06-14 | 2020-05-12 | Elementary IP LLC | Document term extraction based on multiple metrics |
CN109960757A (zh) * | 2019-02-27 | 2019-07-02 | 北京搜狗科技发展有限公司 | 网页检索方法及装置 |
RU2757174C2 (ru) | 2019-09-05 | 2021-10-11 | Общество С Ограниченной Ответственностью «Яндекс» | Способ и система для ранжирования цифровых объектов на основе связанной с ними целевой характеристики |
CN110941743B (zh) * | 2019-10-14 | 2023-09-15 | 广西壮族自治区科学技术情报研究所 | 一种基于深度学习算法自动实现字段权重分配的科技项目查重方法 |
US10761839B1 (en) * | 2019-10-17 | 2020-09-01 | Globant España S.A. | Natural language search engine with a predictive writing tool for coding |
KR102452777B1 (ko) * | 2019-11-28 | 2022-10-07 | 미쓰비시덴키 가부시키가이샤 | 정보 처리 장치, 정보 처리 방법, 및 기록 매체 |
CN111352549B (zh) * | 2020-02-25 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种数据对象展示方法、装置、设备及存储介质 |
US11637937B2 (en) * | 2020-11-18 | 2023-04-25 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and non-transitory storage medium |
CN113360178B (zh) * | 2021-05-31 | 2023-05-05 | 东风商用车有限公司 | 软件唯一识别码生成方法、装置、设备及可读存储介质 |
US11409800B1 (en) | 2021-07-23 | 2022-08-09 | Bank Of America Corporation | Generating search queries for database searching |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW530224B (en) * | 2001-12-07 | 2003-05-01 | Inst Information Industry | Relation establishment system and method for key words in search engine |
US20030195882A1 (en) * | 2002-04-11 | 2003-10-16 | Lee Chung Hee | Homepage searching method using similarity recalculation based on URL substring relationship |
TW575813B (en) * | 2002-10-11 | 2004-02-11 | Intumit Inc | System and method using external search engine as foundation for segmentation of word |
US20040141354A1 (en) * | 2003-01-18 | 2004-07-22 | Carnahan John M. | Query string matching method and apparatus |
TWI227976B (en) * | 1999-12-15 | 2005-02-11 | Napster Inc | Real-time search engine |
TWI284818B (en) * | 2005-07-21 | 2007-08-01 | Bridgewell Inc | Database searching engine system |
Family Cites Families (357)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5369778A (en) | 1987-08-21 | 1994-11-29 | Wang Laboratories, Inc. | Data processor that customizes program behavior by using a resource retrieval capability |
US5226161A (en) | 1987-08-21 | 1993-07-06 | Wang Laboratories, Inc. | Integration of data between typed data structures by mutual direct invocation between data managers corresponding to data types |
US5222236A (en) | 1988-04-29 | 1993-06-22 | Overdrive Systems, Inc. | Multiple integrated document assembly data processing system |
US5321833A (en) | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
JP2937519B2 (ja) * | 1991-03-08 | 1999-08-23 | 株式会社東芝 | 文書検索装置 |
US5257577A (en) | 1991-04-01 | 1993-11-02 | Clark Melvin D | Apparatus for assist in recycling of refuse |
AU5670394A (en) | 1992-11-23 | 1994-06-22 | Paragon Concepts, Inc. | Computer filing system with user selected categories to provide file access |
US6202058B1 (en) * | 1994-04-25 | 2001-03-13 | Apple Computer, Inc. | System for ranking the relevance of information objects accessed by computer users |
US5606609A (en) * | 1994-09-19 | 1997-02-25 | Scientific-Atlanta | Electronic document verification system and method |
US5594660A (en) * | 1994-09-30 | 1997-01-14 | Cirrus Logic, Inc. | Programmable audio-video synchronization method and apparatus for multimedia systems |
US5642502A (en) * | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
US5729730A (en) * | 1995-03-28 | 1998-03-17 | Dex Information Systems, Inc. | Method and apparatus for improved information storage and retrieval system |
US5826269A (en) | 1995-06-21 | 1998-10-20 | Microsoft Corporation | Electronic mail interface for a network server |
US5933851A (en) | 1995-09-29 | 1999-08-03 | Sony Corporation | Time-stamp and hash-based file modification monitor with multi-user notification and method thereof |
US5974455A (en) * | 1995-12-13 | 1999-10-26 | Digital Equipment Corporation | System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table |
US5855020A (en) | 1996-02-21 | 1998-12-29 | Infoseek Corporation | Web scan process |
US6314420B1 (en) | 1996-04-04 | 2001-11-06 | Lycos, Inc. | Collaborative/adaptive search engine |
JP3113814B2 (ja) * | 1996-04-17 | 2000-12-04 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 情報検索方法及び情報検索装置 |
US5905866A (en) | 1996-04-30 | 1999-05-18 | A.I. Soft Corporation | Data-update monitoring in communications network |
US5828999A (en) | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
US5920859A (en) | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US6038610A (en) * | 1996-07-17 | 2000-03-14 | Microsoft Corporation | Storage of sitemaps at server sites for holding information regarding content |
EP0822502A1 (en) * | 1996-07-31 | 1998-02-04 | BRITISH TELECOMMUNICATIONS public limited company | Data access system |
US5745890A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Sequential searching of a database index using constraints on word-location pairs |
US5765150A (en) | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Method for statistically projecting the ranking of information |
US5920854A (en) | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US5870739A (en) * | 1996-09-20 | 1999-02-09 | Novell, Inc. | Hybrid query apparatus and method |
US5870740A (en) | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US5893116A (en) * | 1996-09-30 | 1999-04-06 | Novell, Inc. | Accessing network resources using network resource replicator and captured login script for use when the computer is disconnected from the network |
GB2323003B (en) * | 1996-10-02 | 2001-07-04 | Nippon Telegraph & Telephone | Method and apparatus for graphically displaying hierarchical structure |
JPH10124524A (ja) * | 1996-10-23 | 1998-05-15 | Toshiba Corp | 文書検索装置及び文書検索方法 |
GB2331166B (en) | 1997-11-06 | 2002-09-11 | Ibm | Database search engine |
US5966126A (en) | 1996-12-23 | 1999-10-12 | Szabo; Andrew J. | Graphic user interface for database system |
US6285999B1 (en) | 1997-01-10 | 2001-09-04 | The Board Of Trustees Of The Leland Stanford Junior University | Method for node ranking in a linked database |
US6415319B1 (en) | 1997-02-07 | 2002-07-02 | Sun Microsystems, Inc. | Intelligent network browser using incremental conceptual indexer |
US5960383A (en) | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
US5890147A (en) * | 1997-03-07 | 1999-03-30 | Microsoft Corporation | Scope testing of documents in a search engine using document to folder mapping |
US5848404A (en) | 1997-03-24 | 1998-12-08 | International Business Machines Corporation | Fast query search in large dimension database |
US6272507B1 (en) | 1997-04-09 | 2001-08-07 | Xerox Corporation | System for ranking search results from a collection of documents using spreading activation techniques |
US6256675B1 (en) | 1997-05-06 | 2001-07-03 | At&T Corp. | System and method for allocating requests for objects and managing replicas of objects on a network |
AUPO710597A0 (en) * | 1997-06-02 | 1997-06-26 | Knowledge Horizons Pty. Ltd. | Methods and systems for knowledge management |
US6029164A (en) * | 1997-06-16 | 2000-02-22 | Digital Equipment Corporation | Method and apparatus for organizing and accessing electronic mail messages using labels and full text and label indexing |
US6012053A (en) * | 1997-06-23 | 2000-01-04 | Lycos, Inc. | Computer system with user-controlled relevance ranking of search results |
JPH1125119A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | ハイパーテキスト閲覧システム |
JPH1125104A (ja) | 1997-06-30 | 1999-01-29 | Canon Inc | 情報処理装置および方法 |
US5933822A (en) | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US5983216A (en) | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
US6182113B1 (en) * | 1997-09-16 | 2001-01-30 | International Business Machines Corporation | Dynamic multiplexing of hyperlinks and bookmarks |
US5956722A (en) | 1997-09-23 | 1999-09-21 | At&T Corp. | Method for effective indexing of partially dynamic documents |
US6999959B1 (en) * | 1997-10-10 | 2006-02-14 | Nec Laboratories America, Inc. | Meta search engine |
US6026398A (en) | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
US6070191A (en) | 1997-10-17 | 2000-05-30 | Lucent Technologies Inc. | Data distribution techniques for load-balanced fault-tolerant web access |
US6351467B1 (en) * | 1997-10-27 | 2002-02-26 | Hughes Electronics Corporation | System and method for multicasting multimedia content |
US6594682B2 (en) | 1997-10-28 | 2003-07-15 | Microsoft Corporation | Client-side system for scheduling delivery of web content and locally managing the web content |
US6128701A (en) | 1997-10-28 | 2000-10-03 | Cache Flow, Inc. | Adaptive and predictive cache refresh policy |
US5991756A (en) | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
US5943670A (en) | 1997-11-21 | 1999-08-24 | International Business Machines Corporation | System and method for categorizing objects in combined categories |
US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
US6473752B1 (en) | 1997-12-04 | 2002-10-29 | Micron Technology, Inc. | Method and system for locating documents based on previously accessed documents |
US6389436B1 (en) | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
US6145003A (en) | 1997-12-17 | 2000-11-07 | Microsoft Corporation | Method of web crawling utilizing address mapping |
US7010532B1 (en) * | 1997-12-31 | 2006-03-07 | International Business Machines Corporation | Low overhead methods and apparatus for shared access storage devices |
US6151624A (en) | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
JP3998794B2 (ja) | 1998-02-18 | 2007-10-31 | 株式会社野村総合研究所 | ブラウジングクライアントサーバーシステム |
KR100285265B1 (ko) * | 1998-02-25 | 2001-04-02 | 윤덕용 | 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조 |
US6185558B1 (en) * | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US5913210A (en) | 1998-03-27 | 1999-06-15 | Call; Charles G. | Methods and apparatus for disseminating product information via the internet |
US6125361A (en) | 1998-04-10 | 2000-09-26 | International Business Machines Corporation | Feature diffusion across hyperlinks |
US6151595A (en) | 1998-04-17 | 2000-11-21 | Xerox Corporation | Methods for interactive visualization of spreading activation using time tubes and disk trees |
US6167402A (en) | 1998-04-27 | 2000-12-26 | Sun Microsystems, Inc. | High performance message store |
US6240407B1 (en) | 1998-04-29 | 2001-05-29 | International Business Machines Corp. | Method and apparatus for creating an index in a database system |
US6314421B1 (en) | 1998-05-12 | 2001-11-06 | David M. Sharnoff | Method and apparatus for indexing documents for message filtering |
US6098064A (en) | 1998-05-22 | 2000-08-01 | Xerox Corporation | Prefetching and caching documents according to probability ranked need S list |
US6285367B1 (en) | 1998-05-26 | 2001-09-04 | International Business Machines Corporation | Method and apparatus for displaying and navigating a graph |
US6182085B1 (en) * | 1998-05-28 | 2001-01-30 | International Business Machines Corporation | Collaborative team crawling:Large scale information gathering over the internet |
US6208988B1 (en) * | 1998-06-01 | 2001-03-27 | Bigchalk.Com, Inc. | Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes |
EP1086432B1 (en) | 1998-06-08 | 2004-04-07 | KCSL, Inc. | Method and system for retrieving relevant documents from a database |
US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
JP3665480B2 (ja) * | 1998-06-24 | 2005-06-29 | 富士通株式会社 | 文書整理装置および方法 |
US6216123B1 (en) * | 1998-06-24 | 2001-04-10 | Novell, Inc. | Method and system for rapid retrieval in a full text indexing system |
US6638314B1 (en) | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
US6199081B1 (en) * | 1998-06-30 | 2001-03-06 | Microsoft Corporation | Automatic tagging of documents and exclusion by content |
US6424966B1 (en) | 1998-06-30 | 2002-07-23 | Microsoft Corporation | Synchronizing crawler with notification source |
CN1324464A (zh) | 1998-08-26 | 2001-11-28 | 西姆泰克有限公司 | 映射数据文件的方法和设备 |
US6324551B1 (en) | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
RU2138076C1 (ru) | 1998-09-14 | 1999-09-20 | Закрытое акционерное общество "МедиаЛингва" | Система поиска информации в компьютерной сети |
US6115709A (en) | 1998-09-18 | 2000-09-05 | Tacit Knowledge Systems, Inc. | Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions |
US6549897B1 (en) | 1998-10-09 | 2003-04-15 | Microsoft Corporation | Method and system for calculating phrase-document importance |
US6360215B1 (en) * | 1998-11-03 | 2002-03-19 | Inktomi Corporation | Method and apparatus for retrieving documents based on information other than document content |
US6385602B1 (en) | 1998-11-03 | 2002-05-07 | E-Centives, Inc. | Presentation of search results using dynamic categorization |
US20030069873A1 (en) | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
US6628304B2 (en) | 1998-12-09 | 2003-09-30 | Cisco Technology, Inc. | Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks |
US6167369A (en) | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
JP2000194713A (ja) | 1998-12-25 | 2000-07-14 | Nippon Telegr & Teleph Corp <Ntt> | 文字列検索方法及び装置及び文字列検索プログラムを格納した記憶媒体 |
US6922699B2 (en) * | 1999-01-26 | 2005-07-26 | Xerox Corporation | System and method for quantitatively representing data objects in vector space |
US6418433B1 (en) | 1999-01-28 | 2002-07-09 | International Business Machines Corporation | System and method for focussed web crawling |
JP3347088B2 (ja) | 1999-02-12 | 2002-11-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 関連情報検索方法およびシステム |
US6862710B1 (en) * | 1999-03-23 | 2005-03-01 | Insightful Corporation | Internet navigation using soft hyperlinks |
US6510406B1 (en) | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US6763496B1 (en) | 1999-03-31 | 2004-07-13 | Microsoft Corporation | Method for promoting contextual information to display pages containing hyperlinks |
US6304864B1 (en) | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
US6336117B1 (en) * | 1999-04-30 | 2002-01-01 | International Business Machines Corporation | Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine |
US6327590B1 (en) | 1999-05-05 | 2001-12-04 | Xerox Corporation | System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis |
US7835943B2 (en) | 1999-05-28 | 2010-11-16 | Yahoo! Inc. | System and method for providing place and price protection in a search result list generated by a computer network search engine |
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
US7072888B1 (en) | 1999-06-16 | 2006-07-04 | Triogo, Inc. | Process for improving search engine efficiency using feedback |
US6973490B1 (en) | 1999-06-23 | 2005-12-06 | Savvis Communications Corp. | Method and system for object-level web performance and analysis |
US6547829B1 (en) | 1999-06-30 | 2003-04-15 | Microsoft Corporation | Method and system for detecting duplicate documents in web crawls |
US6631369B1 (en) | 1999-06-30 | 2003-10-07 | Microsoft Corporation | Method and system for incremental web crawling |
US6873982B1 (en) * | 1999-07-16 | 2005-03-29 | International Business Machines Corporation | Ordering of database search results based on user feedback |
US6557036B1 (en) | 1999-07-20 | 2003-04-29 | Sun Microsystems, Inc. | Methods and apparatus for site wide monitoring of electronic mail systems |
US7181438B1 (en) * | 1999-07-21 | 2007-02-20 | Alberti Anemometer, Llc | Database access system |
US6598047B1 (en) | 1999-07-26 | 2003-07-22 | David W. Russell | Method and system for searching text |
CA2279119C (en) | 1999-07-29 | 2004-10-19 | Ibm Canada Limited-Ibm Canada Limitee | Heuristic-based conditional data indexing |
JP3931496B2 (ja) | 1999-08-11 | 2007-06-13 | 富士ゼロックス株式会社 | ハイパーテキスト解析装置 |
US6442606B1 (en) | 1999-08-12 | 2002-08-27 | Inktomi Corporation | Method and apparatus for identifying spoof documents |
US6636853B1 (en) | 1999-08-30 | 2003-10-21 | Morphism, Llc | Method and apparatus for representing and navigating search results |
US6381597B1 (en) * | 1999-10-07 | 2002-04-30 | U-Know Software Corporation | Electronic shopping agent which is capable of operating with vendor sites which have disparate formats |
US7346604B1 (en) * | 1999-10-15 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope |
US6687698B1 (en) * | 1999-10-18 | 2004-02-03 | Fisher Rosemount Systems, Inc. | Accessing and updating a configuration database from distributed physical locations within a process control system |
JP3772606B2 (ja) | 1999-10-19 | 2006-05-10 | 株式会社日立製作所 | 電子文書管理方法及びシステム並びに記録媒体 |
US7107218B1 (en) | 1999-10-29 | 2006-09-12 | British Telecommunications Public Limited Company | Method and apparatus for processing queries |
US6351755B1 (en) * | 1999-11-02 | 2002-02-26 | Alta Vista Company | System and method for associating an extensible set of data with documents downloaded by a web crawler |
US6263364B1 (en) | 1999-11-02 | 2001-07-17 | Alta Vista Company | Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness |
US6418452B1 (en) | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service directory for efficient web crawling |
US6418453B1 (en) | 1999-11-03 | 2002-07-09 | International Business Machines Corporation | Network repository service for efficient web crawling |
US6539376B1 (en) * | 1999-11-15 | 2003-03-25 | International Business Machines Corporation | System and method for the automatic mining of new relationships |
US7016540B1 (en) * | 1999-11-24 | 2006-03-21 | Nec Corporation | Method and system for segmentation, classification, and summarization of video images |
US6886129B1 (en) | 1999-11-24 | 2005-04-26 | International Business Machines Corporation | Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages |
US6772141B1 (en) | 1999-12-14 | 2004-08-03 | Novell, Inc. | Method and apparatus for organizing and using indexes utilizing a search decision table |
US6546388B1 (en) | 2000-01-14 | 2003-04-08 | International Business Machines Corporation | Metadata search results ranking system |
US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US7240067B2 (en) | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
US6931397B1 (en) | 2000-02-11 | 2005-08-16 | International Business Machines Corporation | System and method for automatic generation of dynamic search abstracts contain metadata by crawler |
US6910029B1 (en) | 2000-02-22 | 2005-06-21 | International Business Machines Corporation | System for weighted indexing of hierarchical documents |
JP2001265774A (ja) | 2000-03-16 | 2001-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム |
US6516312B1 (en) * | 2000-04-04 | 2003-02-04 | International Business Machine Corporation | System and method for dynamically associating keywords with domain-specific search engine queries |
US6633867B1 (en) | 2000-04-05 | 2003-10-14 | International Business Machines Corporation | System and method for providing a session query within the context of a dynamic search result set |
US6549896B1 (en) | 2000-04-07 | 2003-04-15 | Nec Usa, Inc. | System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling |
US6718365B1 (en) | 2000-04-13 | 2004-04-06 | International Business Machines Corporation | Method, system, and program for ordering search results using an importance weighting |
US6859800B1 (en) * | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
US6772160B2 (en) * | 2000-06-08 | 2004-08-03 | Ingenuity Systems, Inc. | Techniques for facilitating information acquisition and storage |
US6741986B2 (en) * | 2000-12-08 | 2004-05-25 | Ingenuity Systems, Inc. | Method and system for performing information extraction and quality control for a knowledgebase |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
US6678692B1 (en) * | 2000-07-10 | 2004-01-13 | Northrop Grumman Corporation | Hierarchy statistical analysis system and method |
US6601075B1 (en) | 2000-07-27 | 2003-07-29 | International Business Machines Corporation | System and method of ranking and retrieving documents based on authority scores of schemas and documents |
US6633868B1 (en) | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
US6598040B1 (en) | 2000-08-14 | 2003-07-22 | International Business Machines Corporation | Method and system for processing electronic search expressions |
US7080073B1 (en) | 2000-08-18 | 2006-07-18 | Firstrain, Inc. | Method and apparatus for focused crawling |
KR100378240B1 (ko) | 2000-08-23 | 2003-03-29 | 학교법인 통진학원 | 엔트로피와 사용자 프로파일을 적용한 문서순위 조정방법 |
US6959326B1 (en) | 2000-08-24 | 2005-10-25 | International Business Machines Corporation | Method, system, and program for gathering indexable metadata on content at a data repository |
US20030217052A1 (en) | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US7072847B2 (en) * | 2000-08-25 | 2006-07-04 | Jonas Ulenas | Method and apparatus for obtaining consumer product preferences through product selection and evaluation |
JP3472540B2 (ja) | 2000-09-11 | 2003-12-02 | 日本電信電話株式会社 | サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体 |
NO313399B1 (no) * | 2000-09-14 | 2002-09-23 | Fast Search & Transfer Asa | Fremgangsmate til soking og analyse av informasjon i datanettverk |
US6598051B1 (en) | 2000-09-19 | 2003-07-22 | Altavista Company | Web page connectivity server |
JP3525885B2 (ja) | 2000-10-25 | 2004-05-10 | 日本電信電話株式会社 | 多角的検索サービス方法およびそのプログラムを記録した記録媒体 |
US6560600B1 (en) | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
JP2002140365A (ja) | 2000-11-01 | 2002-05-17 | Mitsubishi Electric Corp | データ検索方法 |
US7200606B2 (en) | 2000-11-07 | 2007-04-03 | The Regents Of The University Of California | Method and system for selecting documents by measuring document quality |
US6622140B1 (en) | 2000-11-15 | 2003-09-16 | Justsystem Corporation | Method and apparatus for analyzing affect and emotion in text |
JP2002157271A (ja) | 2000-11-20 | 2002-05-31 | Yozan Inc | ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法 |
US7925967B2 (en) | 2000-11-21 | 2011-04-12 | Aol Inc. | Metadata quality improvement |
US8402068B2 (en) | 2000-12-07 | 2013-03-19 | Half.Com, Inc. | System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network |
US20020078045A1 (en) | 2000-12-14 | 2002-06-20 | Rabindranath Dutta | System, method, and program for ranking search results using user category weighting |
US6898592B2 (en) | 2000-12-27 | 2005-05-24 | Microsoft Corporation | Scoping queries in a search engine |
JP2002202992A (ja) | 2000-12-28 | 2002-07-19 | Speed System:Kk | ホームページ検索システム |
US6778997B2 (en) | 2001-01-05 | 2004-08-17 | International Business Machines Corporation | XML: finding authoritative pages for mining communities based on page structure criteria |
US7356530B2 (en) | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US6526440B1 (en) * | 2001-01-30 | 2003-02-25 | Google, Inc. | Ranking search results by reranking the results based on local inter-connectivity |
US20020103798A1 (en) | 2001-02-01 | 2002-08-01 | Abrol Mani S. | Adaptive document ranking method based on user behavior |
US20020107886A1 (en) | 2001-02-07 | 2002-08-08 | Gentner Donald R. | Method and apparatus for automatic document electronic versioning system |
WO2002063493A1 (en) | 2001-02-08 | 2002-08-15 | 2028, Inc. | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
US20040003028A1 (en) * | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
JP2002245089A (ja) | 2001-02-19 | 2002-08-30 | Hitachi Eng Co Ltd | ウェブページ検索システム、二次情報収集装置、インターフェース装置 |
US7627596B2 (en) | 2001-02-22 | 2009-12-01 | International Business Machines Corporation | Retrieving handwritten documents using multiple document recognizers and techniques allowing both typed and handwritten queries |
US8001118B2 (en) | 2001-03-02 | 2011-08-16 | Google Inc. | Methods and apparatus for employing usage statistics in document retrieval |
US7269545B2 (en) | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
US20020169770A1 (en) | 2001-04-27 | 2002-11-14 | Kim Brian Seong-Gon | Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents |
US7188106B2 (en) * | 2001-05-01 | 2007-03-06 | International Business Machines Corporation | System and method for aggregating ranking results from various sources to improve the results of web searching |
US20020165860A1 (en) | 2001-05-07 | 2002-11-07 | Nec Research Insititute, Inc. | Selective retrieval metasearch engine |
US6738764B2 (en) | 2001-05-08 | 2004-05-18 | Verity, Inc. | Apparatus and method for adaptively ranking search results |
DE60239742D1 (de) * | 2001-05-10 | 2011-05-26 | Amdocs Software Systems Ltd | Intelligente internet-website mit hierarchischem menü |
US6865295B2 (en) | 2001-05-11 | 2005-03-08 | Koninklijke Philips Electronics N.V. | Palette-based histogram matching with recursive histogram vector generation |
US6782383B2 (en) | 2001-06-18 | 2004-08-24 | Siebel Systems, Inc. | System and method to implement a persistent and dismissible search center frame |
US6947920B2 (en) | 2001-06-20 | 2005-09-20 | Oracle International Corporation | Method and system for response time optimization of data query rankings and retrieval |
US7519529B1 (en) | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US7039234B2 (en) * | 2001-07-19 | 2006-05-02 | Microsoft Corporation | Electronic ink as a software object |
US6928425B2 (en) * | 2001-08-13 | 2005-08-09 | Xerox Corporation | System for propagating enrichment between documents |
US6868411B2 (en) * | 2001-08-13 | 2005-03-15 | Xerox Corporation | Fuzzy text categorizer |
KR100509276B1 (ko) | 2001-08-20 | 2005-08-22 | 엔에이치엔(주) | 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치 |
US7076483B2 (en) | 2001-08-27 | 2006-07-11 | Xyleme Sa | Ranking nodes in a graph |
US20030046389A1 (en) * | 2001-09-04 | 2003-03-06 | Thieme Laura M. | Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility |
US6970863B2 (en) * | 2001-09-18 | 2005-11-29 | International Business Machines Corporation | Front-end weight factor search criteria |
US6766422B2 (en) | 2001-09-27 | 2004-07-20 | Siemens Information And Communication Networks, Inc. | Method and system for web caching based on predictive usage |
US6944609B2 (en) | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
US7428695B2 (en) | 2001-10-22 | 2008-09-23 | Hewlett-Packard Development Company, L.P. | System for automatic generation of arbitrarily indexed hyperlinked text |
JP2003208434A (ja) | 2001-11-07 | 2003-07-25 | Nec Corp | 情報検索システム及びそれに用いる情報検索方法 |
US20030101183A1 (en) | 2001-11-26 | 2003-05-29 | Navin Kabra | Information retrieval index allowing updating while in use |
US6763362B2 (en) | 2001-11-30 | 2004-07-13 | Micron Technology, Inc. | Method and system for updating a search engine |
US7565367B2 (en) | 2002-01-15 | 2009-07-21 | Iac Search & Media, Inc. | Enhanced popularity ranking |
JP3871201B2 (ja) | 2002-01-29 | 2007-01-24 | ソニー株式会社 | コンテンツ提供取得システム |
US6829606B2 (en) | 2002-02-14 | 2004-12-07 | Infoglide Software Corporation | Similarity search engine for use with relational databases |
JP4021681B2 (ja) | 2002-02-22 | 2007-12-12 | 日本電信電話株式会社 | ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体 |
US20060004732A1 (en) * | 2002-02-26 | 2006-01-05 | Odom Paul S | Search engine methods and systems for generating relevant search results and advertisements |
US6934714B2 (en) | 2002-03-04 | 2005-08-23 | Intelesis Engineering, Inc. | Method and system for identification and maintenance of families of data records |
US7693830B2 (en) * | 2005-08-10 | 2010-04-06 | Google Inc. | Programmable search engine |
US7039631B1 (en) | 2002-05-24 | 2006-05-02 | Microsoft Corporation | System and method for providing search results with configurable scoring formula |
RU2273879C2 (ru) | 2002-05-28 | 2006-04-10 | Владимир Владимирович Насыпный | Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем |
US20040006559A1 (en) * | 2002-05-29 | 2004-01-08 | Gange David M. | System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector |
JP2005530250A (ja) | 2002-06-12 | 2005-10-06 | ジェナ ジョーダル, | 複数階層視座を実現するデータ格納、取り出し、操作、及び表示ツール |
JP2004054588A (ja) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
CA2395905A1 (en) * | 2002-07-26 | 2004-01-26 | Teraxion Inc. | Multi-grating tunable chromatic dispersion compensator |
US7599911B2 (en) * | 2002-08-05 | 2009-10-06 | Yahoo! Inc. | Method and apparatus for search ranking using human input and automated ranking |
US7152059B2 (en) | 2002-08-30 | 2006-12-19 | Emergency24, Inc. | System and method for predicting additional search results of a computerized database search user based on an initial search query |
US7013458B2 (en) * | 2002-09-09 | 2006-03-14 | Sun Microsystems, Inc. | Method and apparatus for associating metadata attributes with program elements |
JP2004164555A (ja) | 2002-09-17 | 2004-06-10 | Fuji Xerox Co Ltd | 検索装置および方法ならびにそのインデクス構築装置および方法 |
US20040064442A1 (en) | 2002-09-27 | 2004-04-01 | Popovitch Steven Gregory | Incremental search engine |
US6886010B2 (en) | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
US7085755B2 (en) | 2002-11-07 | 2006-08-01 | Thomson Global Resources Ag | Electronic document repository management and access system |
US7231379B2 (en) * | 2002-11-19 | 2007-06-12 | Noema, Inc. | Navigation in a hierarchical structured transaction processing system |
US7386527B2 (en) | 2002-12-06 | 2008-06-10 | Kofax, Inc. | Effective multi-class support vector machine classification |
US7020648B2 (en) | 2002-12-14 | 2006-03-28 | International Business Machines Corporation | System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata |
US20040148278A1 (en) | 2003-01-22 | 2004-07-29 | Amir Milo | System and method for providing content warehouse |
RU2236699C1 (ru) | 2003-02-25 | 2004-09-20 | Открытое акционерное общество "Телепортал. Ру" | Способ поиска и выборки информации с повышенной релевантностью |
JP4299022B2 (ja) | 2003-02-28 | 2009-07-22 | トヨタ自動車株式会社 | コンテンツ検索用インデックス生成装置 |
US20040181515A1 (en) | 2003-03-13 | 2004-09-16 | International Business Machines Corporation | Group administration of universal resource identifiers with members identified in search result |
US6947930B2 (en) | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
EP1462950B1 (en) | 2003-03-27 | 2007-08-29 | Sony Deutschland GmbH | Method for language modelling |
US7028029B2 (en) | 2003-03-28 | 2006-04-11 | Google Inc. | Adaptive computation of ranking |
US7216123B2 (en) * | 2003-03-28 | 2007-05-08 | Board Of Trustees Of The Leland Stanford Junior University | Methods for ranking nodes in large directed graphs |
US7451130B2 (en) | 2003-06-16 | 2008-11-11 | Google Inc. | System and method for providing preferred country biasing of search results |
US7451129B2 (en) | 2003-03-31 | 2008-11-11 | Google Inc. | System and method for providing preferred language ordering of search results |
US7051023B2 (en) | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
US7197497B2 (en) * | 2003-04-25 | 2007-03-27 | Overture Services, Inc. | Method and apparatus for machine learning a document relevance function |
US7283997B1 (en) | 2003-05-14 | 2007-10-16 | Apple Inc. | System and method for ranking the relevance of documents retrieved by a query |
US7502779B2 (en) | 2003-06-05 | 2009-03-10 | International Business Machines Corporation | Semantics-based searching for information in a distributed data processing system |
US8239380B2 (en) | 2003-06-20 | 2012-08-07 | Microsoft Corporation | Systems and methods to tune a general-purpose search engine for a search entry point |
US7228301B2 (en) | 2003-06-27 | 2007-06-05 | Microsoft Corporation | Method for normalizing document metadata to improve search results using an alias relationship directory service |
US7630963B2 (en) | 2003-06-30 | 2009-12-08 | Microsoft Corporation | Fast ranked full-text searching |
US7308643B1 (en) | 2003-07-03 | 2007-12-11 | Google Inc. | Anchor tag indexing in a web crawler system |
JP4274533B2 (ja) | 2003-07-16 | 2009-06-10 | キヤノン株式会社 | 固体撮像装置及びその駆動方法 |
KR100543255B1 (ko) | 2003-08-19 | 2006-01-20 | 문영섭 | 용접부 절삭가공장치 |
US20050060186A1 (en) * | 2003-08-28 | 2005-03-17 | Blowers Paul A. | Prioritized presentation of medical device events |
US7505964B2 (en) * | 2003-09-12 | 2009-03-17 | Google Inc. | Methods and systems for improving a search ranking using related queries |
US7454417B2 (en) * | 2003-09-12 | 2008-11-18 | Google Inc. | Methods and systems for improving a search ranking using population information |
US8589373B2 (en) | 2003-09-14 | 2013-11-19 | Yaron Mayer | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers |
US7693827B2 (en) | 2003-09-30 | 2010-04-06 | Google Inc. | Personalization of placed content ordering in search results |
US20050071328A1 (en) * | 2003-09-30 | 2005-03-31 | Lawrence Stephen R. | Personalization of web search |
US7346839B2 (en) | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US7552109B2 (en) | 2003-10-15 | 2009-06-23 | International Business Machines Corporation | System, method, and service for collaborative focused crawling of documents on a network |
US20050086192A1 (en) | 2003-10-16 | 2005-04-21 | Hitach, Ltd. | Method and apparatus for improving the integration between a search engine and one or more file servers |
US7346208B2 (en) | 2003-10-25 | 2008-03-18 | Hewlett-Packard Development Company, L.P. | Image artifact reduction using a neural network |
US7231399B1 (en) | 2003-11-14 | 2007-06-12 | Google Inc. | Ranking documents based on large data sets |
US7181447B2 (en) | 2003-12-08 | 2007-02-20 | Iac Search And Media, Inc. | Methods and systems for conceptually organizing and presenting information |
US20060047649A1 (en) * | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
US20050160107A1 (en) | 2003-12-29 | 2005-07-21 | Ping Liang | Advanced search, file system, and intelligent assistant agent |
US7685104B2 (en) | 2004-01-08 | 2010-03-23 | International Business Machines Corporation | Dynamic bitmap processing, identification and reusability |
US7483891B2 (en) | 2004-01-09 | 2009-01-27 | Yahoo, Inc. | Content presentation and management system associating base content and relevant additional content |
US7392278B2 (en) | 2004-01-23 | 2008-06-24 | Microsoft Corporation | Building and using subwebs for focused search |
US7499913B2 (en) | 2004-01-26 | 2009-03-03 | International Business Machines Corporation | Method for handling anchor text |
JP2004192657A (ja) | 2004-02-09 | 2004-07-08 | Nec Corp | 情報検索システム、情報検索方法および情報検索用プログラムを記録した記録媒体 |
US7310632B2 (en) | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
US7281002B2 (en) | 2004-03-01 | 2007-10-09 | International Business Machine Corporation | Organizing related search results |
US9104689B2 (en) | 2004-03-17 | 2015-08-11 | International Business Machines Corporation | Method for synchronizing documents for disconnected operation |
US7584221B2 (en) | 2004-03-18 | 2009-09-01 | Microsoft Corporation | Field weighting in text searching |
JP2005277445A (ja) | 2004-03-22 | 2005-10-06 | Fuji Xerox Co Ltd | 会議映像処理装置、会議映像処理方法およびプログラム |
US7343374B2 (en) | 2004-03-29 | 2008-03-11 | Yahoo! Inc. | Computation of page authority weights using personalized bookmarks |
US7580568B1 (en) | 2004-03-31 | 2009-08-25 | Google Inc. | Methods and systems for identifying an image as a representative image for an article |
US7693825B2 (en) | 2004-03-31 | 2010-04-06 | Google Inc. | Systems and methods for ranking implicit search results |
US20050251499A1 (en) | 2004-05-04 | 2005-11-10 | Zezhen Huang | Method and system for searching documents using readers valuation |
US7257577B2 (en) | 2004-05-07 | 2007-08-14 | International Business Machines Corporation | System, method and service for ranking search results using a modular scoring system |
US7136851B2 (en) | 2004-05-14 | 2006-11-14 | Microsoft Corporation | Method and system for indexing and searching databases |
US7260573B1 (en) | 2004-05-17 | 2007-08-21 | Google Inc. | Personalizing anchor text scores in a search engine |
US7716225B1 (en) | 2004-06-17 | 2010-05-11 | Google Inc. | Ranking documents based on user behavior and/or feature data |
US20050283473A1 (en) | 2004-06-17 | 2005-12-22 | Armand Rousso | Apparatus, method and system of artificial intelligence for data searching applications |
US7730012B2 (en) | 2004-06-25 | 2010-06-01 | Apple Inc. | Methods and systems for managing data |
US8131674B2 (en) | 2004-06-25 | 2012-03-06 | Apple Inc. | Methods and systems for managing data |
US7428530B2 (en) | 2004-07-01 | 2008-09-23 | Microsoft Corporation | Dispersing search engine results by using page category information |
US7363296B1 (en) | 2004-07-01 | 2008-04-22 | Microsoft Corporation | Generating a subindex with relevant attributes to improve querying |
US7634461B2 (en) * | 2004-08-04 | 2009-12-15 | International Business Machines Corporation | System and method for enhancing keyword relevance by user's interest on the search result documents |
US7395260B2 (en) * | 2004-08-04 | 2008-07-01 | International Business Machines Corporation | Method for providing graphical representations of search results in multiple related histograms |
US20060036598A1 (en) * | 2004-08-09 | 2006-02-16 | Jie Wu | Computerized method for ranking linked information items in distributed sources |
US20060047643A1 (en) * | 2004-08-31 | 2006-03-02 | Chirag Chaman | Method and system for a personalized search engine |
RU2388050C2 (ru) * | 2004-09-16 | 2010-04-27 | Теленор Аса | Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети |
US20060064411A1 (en) * | 2004-09-22 | 2006-03-23 | William Gross | Search engine using user intent |
US7606793B2 (en) | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US7827181B2 (en) * | 2004-09-30 | 2010-11-02 | Microsoft Corporation | Click distance determination |
US7761448B2 (en) | 2004-09-30 | 2010-07-20 | Microsoft Corporation | System and method for ranking search results using click distance |
US7739277B2 (en) | 2004-09-30 | 2010-06-15 | Microsoft Corporation | System and method for incorporating anchor text into ranking search results |
US7644107B2 (en) * | 2004-09-30 | 2010-01-05 | Microsoft Corporation | System and method for batched indexing of network documents |
US20060074883A1 (en) | 2004-10-05 | 2006-04-06 | Microsoft Corporation | Systems, methods, and interfaces for providing personalized search and information access |
US20060074781A1 (en) | 2004-10-06 | 2006-04-06 | Leano Hector V | System for facilitating turnkey real estate investment in Mexico |
WO2006042142A2 (en) | 2004-10-07 | 2006-04-20 | Bernard Widrow | Cognitive memory and auto-associative neural network based pattern recognition and searching |
US7533092B2 (en) | 2004-10-28 | 2009-05-12 | Yahoo! Inc. | Link-based spam detection |
US7716198B2 (en) | 2004-12-21 | 2010-05-11 | Microsoft Corporation | Ranking search results using feature extraction |
US7698331B2 (en) | 2005-01-18 | 2010-04-13 | Yahoo! Inc. | Matching and ranking of sponsored search listings incorporating web search technology and web content |
US20060173828A1 (en) | 2005-02-01 | 2006-08-03 | Outland Research, Llc | Methods and apparatus for using personal background data to improve the organization of documents retrieved in response to a search query |
US7689615B2 (en) | 2005-02-25 | 2010-03-30 | Microsoft Corporation | Ranking results using multiple nested ranking |
US7792833B2 (en) | 2005-03-03 | 2010-09-07 | Microsoft Corporation | Ranking search results using language types |
US20060200460A1 (en) | 2005-03-03 | 2006-09-07 | Microsoft Corporation | System and method for ranking search results using file types |
US7574436B2 (en) | 2005-03-10 | 2009-08-11 | Yahoo! Inc. | Reranking and increasing the relevance of the results of Internet searches |
US20060206460A1 (en) | 2005-03-14 | 2006-09-14 | Sanjay Gadkari | Biasing search results |
US8095487B2 (en) | 2005-03-16 | 2012-01-10 | Yahoo! Inc. | System and method for biasing search results based on topic familiarity |
KR101374651B1 (ko) | 2005-03-18 | 2014-03-17 | 써치 엔진 테크놀로지스, 엘엘씨 | 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진 |
US7870147B2 (en) | 2005-03-29 | 2011-01-11 | Google Inc. | Query revision using known highly-ranked queries |
US7693829B1 (en) | 2005-04-25 | 2010-04-06 | Google Inc. | Search engine with fill-the-blanks capability |
US7401073B2 (en) | 2005-04-28 | 2008-07-15 | International Business Machines Corporation | Term-statistics modification for category-based search |
US7451124B2 (en) | 2005-05-12 | 2008-11-11 | Xerox Corporation | Method of analyzing documents |
US7962462B1 (en) * | 2005-05-31 | 2011-06-14 | Google Inc. | Deriving and using document and site quality signals from search query streams |
CA2544324A1 (en) | 2005-06-10 | 2006-12-10 | Unicru, Inc. | Employee selection via adaptive assessment |
US20060282455A1 (en) | 2005-06-13 | 2006-12-14 | It Interactive Services Inc. | System and method for ranking web content |
US7627564B2 (en) | 2005-06-21 | 2009-12-01 | Microsoft Corporation | High scale adaptive search systems and methods |
US7599917B2 (en) * | 2005-08-15 | 2009-10-06 | Microsoft Corporation | Ranking search results using biased click distance |
US7653617B2 (en) * | 2005-08-29 | 2010-01-26 | Google Inc. | Mobile sitemaps |
US7499919B2 (en) | 2005-09-21 | 2009-03-03 | Microsoft Corporation | Ranking functions using document usage statistics |
US7716226B2 (en) | 2005-09-27 | 2010-05-11 | Patentratings, Llc | Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects |
US7689531B1 (en) * | 2005-09-28 | 2010-03-30 | Trend Micro Incorporated | Automatic charset detection using support vector machines with charset grouping |
US20070085716A1 (en) | 2005-09-30 | 2007-04-19 | International Business Machines Corporation | System and method for detecting matches of small edit distance |
US7873624B2 (en) | 2005-10-21 | 2011-01-18 | Microsoft Corporation | Question answering over structured content on the web |
US20070150473A1 (en) | 2005-12-22 | 2007-06-28 | Microsoft Corporation | Search By Document Type And Relevance |
US7689559B2 (en) * | 2006-02-08 | 2010-03-30 | Telenor Asa | Document similarity scoring and ranking method, device and computer program product |
US7685091B2 (en) | 2006-02-14 | 2010-03-23 | Accenture Global Services Gmbh | System and method for online information analysis |
US20070260597A1 (en) | 2006-05-02 | 2007-11-08 | Mark Cramer | Dynamic search engine results employing user behavior |
EP1862916A1 (en) | 2006-06-01 | 2007-12-05 | Microsoft Corporation | Indexing Documents for Information Retrieval based on additional feedback fields |
US20080005068A1 (en) * | 2006-06-28 | 2008-01-03 | Microsoft Corporation | Context-based search, retrieval, and awareness |
US20080016053A1 (en) * | 2006-07-14 | 2008-01-17 | Bea Systems, Inc. | Administration Console to Select Rank Factors |
US8595245B2 (en) | 2006-07-26 | 2013-11-26 | Xerox Corporation | Reference resolution for text enrichment and normalization in mining mixed data |
US7720830B2 (en) | 2006-07-31 | 2010-05-18 | Microsoft Corporation | Hierarchical conditional random fields for web extraction |
US20080140641A1 (en) | 2006-12-07 | 2008-06-12 | Yahoo! Inc. | Knowledge and interests based search term ranking for search results validation |
US7792883B2 (en) | 2006-12-11 | 2010-09-07 | Google Inc. | Viewport-relative scoring for location search queries |
JP4839195B2 (ja) | 2006-12-12 | 2011-12-21 | 日本電信電話株式会社 | Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置 |
US7685084B2 (en) * | 2007-02-09 | 2010-03-23 | Yahoo! Inc. | Term expansion using associative matching of labeled term pairs |
US20090006358A1 (en) * | 2007-06-27 | 2009-01-01 | Microsoft Corporation | Search results |
US7996392B2 (en) * | 2007-06-27 | 2011-08-09 | Oracle International Corporation | Changing ranking algorithms based on customer settings |
US8122032B2 (en) * | 2007-07-20 | 2012-02-21 | Google Inc. | Identifying and linking similar passages in a digital text corpus |
US8201081B2 (en) * | 2007-09-07 | 2012-06-12 | Google Inc. | Systems and methods for processing inoperative document links |
US20090106221A1 (en) | 2007-10-18 | 2009-04-23 | Microsoft Corporation | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features |
US9348912B2 (en) | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US7840569B2 (en) | 2007-10-18 | 2010-11-23 | Microsoft Corporation | Enterprise relevancy ranking using a neural network |
US7707229B2 (en) | 2007-12-12 | 2010-04-27 | Yahoo! Inc. | Unsupervised detection of web pages corresponding to a similarity class |
JP2009146248A (ja) | 2007-12-17 | 2009-07-02 | Fujifilm Corp | コンテンツ提示システム及びプログラム |
US20090164929A1 (en) | 2007-12-20 | 2009-06-25 | Microsoft Corporation | Customizing Search Results |
US8412702B2 (en) | 2008-03-12 | 2013-04-02 | Yahoo! Inc. | System, method, and/or apparatus for reordering search results |
US7974974B2 (en) | 2008-03-20 | 2011-07-05 | Microsoft Corporation | Techniques to perform relative ranking for search results |
JP5328212B2 (ja) | 2008-04-10 | 2013-10-30 | 株式会社エヌ・ティ・ティ・ドコモ | レコメンド情報評価装置およびレコメンド情報評価方法 |
CN101359331B (zh) | 2008-05-04 | 2014-03-19 | 索意互动(北京)信息技术有限公司 | 对搜索结果重新排序的方法和系统 |
US20090307209A1 (en) | 2008-06-10 | 2009-12-10 | David Carmel | Term-statistics modification for category-based search |
US8326829B2 (en) | 2008-10-17 | 2012-12-04 | Centurylink Intellectual Property Llc | System and method for displaying publication dates for search results |
US8224847B2 (en) | 2009-10-29 | 2012-07-17 | Microsoft Corporation | Relevant individual searching using managed property and ranking features |
US8527507B2 (en) | 2009-12-04 | 2013-09-03 | Microsoft Corporation | Custom ranking model schema |
US8422786B2 (en) | 2010-03-26 | 2013-04-16 | International Business Machines Corporation | Analyzing documents using stored templates |
US8738635B2 (en) | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US8370331B2 (en) * | 2010-07-02 | 2013-02-05 | Business Objects Software Limited | Dynamic visualization of search results on a graphical user interface |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
-
2008
- 2008-04-11 US US12/101,951 patent/US8812493B2/en active Active
-
2009
- 2009-03-02 TW TW098106721A patent/TWI486800B/zh not_active IP Right Cessation
- 2009-03-10 CN CN200980112928.6A patent/CN101990670B/zh active Active
- 2009-03-10 JP JP2011504031A patent/JP5492187B2/ja active Active
- 2009-03-10 EP EP20090730808 patent/EP2289007B1/en active Active
- 2009-03-10 KR KR1020107022177A patent/KR101557294B1/ko active IP Right Grant
- 2009-03-10 BR BRPI0909092-4A patent/BRPI0909092A2/pt not_active IP Right Cessation
- 2009-03-10 AU AU2009234120A patent/AU2009234120B2/en active Active
- 2009-03-10 WO PCT/US2009/036597 patent/WO2009126394A1/en active Application Filing
- 2009-03-10 RU RU2010141559/08A patent/RU2501078C2/ru active
-
2010
- 2010-08-26 IL IL207830A patent/IL207830A/en active IP Right Grant
- 2010-08-26 ZA ZA2010/06093A patent/ZA201006093B/en unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI227976B (en) * | 1999-12-15 | 2005-02-11 | Napster Inc | Real-time search engine |
TW530224B (en) * | 2001-12-07 | 2003-05-01 | Inst Information Industry | Relation establishment system and method for key words in search engine |
US20030195882A1 (en) * | 2002-04-11 | 2003-10-16 | Lee Chung Hee | Homepage searching method using similarity recalculation based on URL substring relationship |
TW575813B (en) * | 2002-10-11 | 2004-02-11 | Intumit Inc | System and method using external search engine as foundation for segmentation of word |
US20040141354A1 (en) * | 2003-01-18 | 2004-07-22 | Carnahan John M. | Query string matching method and apparatus |
TWI284818B (en) * | 2005-07-21 | 2007-08-01 | Bridgewell Inc | Database searching engine system |
Also Published As
Publication number | Publication date |
---|---|
IL207830A0 (en) | 2010-12-30 |
JP5492187B2 (ja) | 2014-05-14 |
RU2501078C2 (ru) | 2013-12-10 |
WO2009126394A1 (en) | 2009-10-15 |
EP2289007B1 (en) | 2015-04-22 |
CN101990670B (zh) | 2013-12-18 |
US8812493B2 (en) | 2014-08-19 |
ZA201006093B (en) | 2011-10-26 |
EP2289007A4 (en) | 2012-10-31 |
TW200945079A (en) | 2009-11-01 |
AU2009234120A1 (en) | 2009-10-15 |
KR101557294B1 (ko) | 2015-10-06 |
US20090259651A1 (en) | 2009-10-15 |
EP2289007A1 (en) | 2011-03-02 |
JP2011516989A (ja) | 2011-05-26 |
IL207830A (en) | 2015-03-31 |
AU2009234120B2 (en) | 2014-05-22 |
KR20110009098A (ko) | 2011-01-27 |
RU2010141559A (ru) | 2012-04-20 |
CN101990670A (zh) | 2011-03-23 |
BRPI0909092A2 (pt) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI486800B (zh) | 用於使用編輯距離以及文件資訊的搜尋結果排序之系統與方法 | |
US10599643B2 (en) | Template-driven structured query generation | |
US10783318B2 (en) | Facilitating modification of an extracted field | |
US7984035B2 (en) | Context-based document search | |
US7636714B1 (en) | Determining query term synonyms within query context | |
JP4129819B2 (ja) | データベース検索システム及びその検索方法並びにプログラム | |
US8285702B2 (en) | Content analysis simulator for improving site findability in information retrieval systems | |
US20190004875A1 (en) | Artificial Creation Of Dominant Sequences That Are Representative Of Logged Events | |
JP5616444B2 (ja) | 文書インデックス化およびデータクエリングのための方法およびシステム | |
JP2005339542A (ja) | クエリからタスクへのマッピング | |
KR20120089560A (ko) | 검색 결과 순위 지정을 위한 정적 관련성 특징으로서의 문서 길이 | |
US10282358B2 (en) | Methods of furnishing search results to a plurality of client devices via a search engine system | |
US8489571B2 (en) | Digital resources searching and mining through collaborative judgment and dynamic index evolution | |
WO2017028395A1 (zh) | 一种提供搜索结果的方法与装置 | |
US7788284B2 (en) | System and method for knowledge based search system | |
JP2008198237A (ja) | 構造化文書管理システム | |
CN113918807A (zh) | 数据推荐方法、装置、计算设备及计算机可读存储介质 | |
JP5613536B2 (ja) | 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体 | |
KR100884889B1 (ko) | 검색 데이터베이스의 자동 색인어 추가 방법 및 시스템 | |
TANVIR | Design and Implementation of an Efficient Web Crawling | |
JP2008198235A (ja) | 構造化文書管理システム | |
JP2008198236A (ja) | 構造化文書管理システム | |
JP2010009254A (ja) | 素性語選別装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |