TWI396984B - 使用網路文件的偏擊距離之排序功能 - Google Patents

使用網路文件的偏擊距離之排序功能 Download PDF

Info

Publication number
TWI396984B
TWI396984B TW095129817A TW95129817A TWI396984B TW I396984 B TWI396984 B TW I396984B TW 095129817 A TW095129817 A TW 095129817A TW 95129817 A TW95129817 A TW 95129817A TW I396984 B TWI396984 B TW I396984B
Authority
TW
Taiwan
Prior art keywords
file
network
value
files
node
Prior art date
Application number
TW095129817A
Other languages
English (en)
Other versions
TW200719183A (en
Inventor
Dmitriy Meyerzon
Hugo Zaragoza
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW200719183A publication Critical patent/TW200719183A/zh
Application granted granted Critical
Publication of TWI396984B publication Critical patent/TWI396984B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

使用網路文件的偏擊距離之排序功能
本發明係有關於一種提供一文件相關性分數至在一網路上之文件的方法。
依據對一特定搜尋詢問之相關性而排序文件之排序功能為已知的。在相關技術中仍持續努力發展排序功能,其相較於使用已知排序功能而由搜尋引擎建立搜尋結果可對一特定搜尋詢問提供更佳的搜尋結果。
此處特別說明各種在一網路上判定一特定文件之一文件相關性分數的技術。該文件相關性分數係透過一排序功能所建立,其包含一或多個詢問獨立部分,其中至少一詢問獨立部分包括一偏擊距離參數,其考慮該網路上多個文件之偏擊距離數值。該排序功能可由一搜尋引擎所使用,以依據該多的文件之文件相關性分數而依序(典型為降冪順序)排序多個文件。
提供此內容摘要以在一簡化形式中大致對讀者介紹以下“實施方式”段落中描述之一或多個選擇概念。此內容摘要並無意識別分請專利範圍之關鍵及/或必須特徵。
為了協助瞭解此處揭露之方法及處理的原理,以下特定實施例之描述及特定語言係用於描述該特定實施例。然而將瞭解該特定語言之使用並無意限制所揭露之方法及處理的範圍。與該揭露方法及處理相關之習知技藝人士一般可想到之替代、進階修改以及所揭露之方法之原理的此進一步應用與討論之處理均已被考慮。
此處揭露在一網路上判定文件之一文件相關性分數的方法。各文件相關性分數係使用一排序功能加以計算,其包含一或多個詢問相依部分(query-dependent component)(例如依據一特定搜尋詢問或搜尋詢問術語之特性的一功能部分)以及一或多個詢問獨立部分(例如不依據一特定搜尋詢問或搜尋詢問術語之一功能部分)。該排序功能所判定之文件相關性分數可被用於依據各文件相關性分數排序一網路空間(例如一企業內部網路空間)中的文件。第1圖中的示範處理10說明可用於揭露方法中的一示範搜尋處理。
第1圖描繪示範搜尋處理10,其開始於處理步驟80,其中一使用者輸入一搜尋詢問。從步驟80開始,示範搜尋處理10進行至步驟200,其中一搜尋引擎搜尋一網路空間中的所有元件關於該搜尋詢問的一或多個術語(term)。從步驟200開始,示範搜尋處理10進行至步驟300,其中該搜尋引擎的一排序功能依據各文件的相關性分數而排序該網路空間中的文件,該文件相關性分數係依據一或多個詢問相依部分以及一或多個詢問獨立部分。從步驟300開始,示範搜尋處理10前進至步驟400,其中排列的搜尋結果被呈現予該使用者-典型地係按照相關性的降冪順序,識別該網路空間中與該搜尋詢問最相關的文件。
下文將更詳細說明,在判定一文件相關性分數之某些示範方法中,用於判定一文件相關性分數之一排序功能的至少一詢問獨立部分考慮一網路空間中各文件的一“偏擊距離”(biased click distance)。某些文件之偏擊距離-此處稱之為一網路中的“授權文件”或一網狀圖(web graph)上的“授權節點”-可被指配一初始點擊距離數值(initial click distance value),以識別這些文件在彼此中具有不同程度的重要性,且可能相較於該網路上的其他文件具有一較高程度的重要性。該剩餘文件-此處稱之為一網路中的“非授權文件”或一網狀圖上的“非授權節點”-具有一偏擊距離數值,其係依據其與一網路空間中最近授權文件(或一網頁圖形上的最近授權節點)的位置加以計算,而得到偏向該授權節點之點擊距離數值。
在一示範實施例中,一偏擊距離數值可被指配至包含N個總文件之一網路上的m 個授權文件,其中m 大於或等於2且小於N。在此示範實施例中,一系統管理員手動選擇或者一搜尋系統中的應用程式碼自動識別一特定網路空間中的m 個授權文件,其於該網路空間中具有某種程度的重要性。舉例來說,m 個授權文件之一可為一網站之一首頁或直接連結至一網站之首頁的另一頁面。
在另一示範實施例中,指配至m 個授權文件之偏擊距離數值的至少兩者為彼此不同的。在此實施例中,不同的數值可被指配至m個授權文件之兩或多者,以進一步量化一授權文件對另一授權文件的重要性。舉例來說,一特定授權文件之重要性可由一低偏擊距離數值所指示。在此範例中,一偏擊距離數值等於0的授權文件將被視為比一偏擊距離數值大於0支授權文件更為重要。
判定一文件相關性分數之揭露方法可進一步利用一排序功能,其包含至少一詢問獨立部分,該詢問獨立部分包括一邊緣數值參數,其考慮指配至該網路上各邊緣的邊緣數值,其中各邊緣於該網路的超連結結構中連接一文件與另一文件。指配邊緣數值至連接一網路上的一文件與另一文件的一或多個邊緣提供一進階方法,其影響該網路上的文件的文件相關性分數。舉例來說,在前述其中一較低偏擊距離數值指示一特定文件之重要性的範例中,增加兩文件-例如一第一文件以及連結至該第一文件之一第二文件-之間的一邊緣數值,可進一步降低該第二文件(亦即該連結文件)相對於該第一文件的重要性。相反地,藉由指配一較低邊緣數值至該第一文件及該第二文件之間的邊緣,該第二文件的重要性相對於該第一文件將變大。
在一示範實施例中,連結一網路空間中的文件的兩或多個邊緣可被指配彼此不同的邊緣數值。在此示範實施例中,不同的數值可被指配至兩或多個邊緣以進一步量化一網路空間中一文件對另一者的重要性。在其他示範實施例中,連結一網路空間中的文件的所有邊緣被指配相同的邊緣數值,其中該指配之邊緣數值為1或其他正數。在另一實施例中,該邊緣數值彼此相同且等於或大於初始指配至一或多個授權文件的最高偏擊距離數值。
在另一進一步示範實施例中,判定一文件相關性分數之揭露方法利用一排序功能,其包含至少一詢問獨立部分,該詢問獨立部分均包括前述偏擊距離參數以及前述邊緣數值參數。
該文件相關性分數可被用於排序一網路空間中的文件。舉例來說,一種在一網路上排序文件的方法可包含以下步驟:使用前述方法判定該網路上各文件的相關性分數;以及依據各文件之文件相關性分數而以一所需順序(典型地為降冪順序)排序該文件。
該文件相關性分數亦可被用於排序一搜尋詢問的搜尋結果。舉例來說,一種排序一搜尋詢問之搜尋結果的方法可包含以下步驟:使用前述方法判定一搜尋詢問之搜尋結果中各文件的一文件相關性分數;以及依據各文件之文件相關性分數以一所需順序(典型地為降冪順序)排列該文件。
使用此處揭露之方法的應用程式可被載入並執行於包含多種硬體元件之多種電腦系統之上。用於實施此處揭露之方法的一示範電腦系統及示範作業環境將於下文加以詳述。
示範作業環境
第2圖說明可於其上實施此處揭露之方法的一適用電腦系統環境100。該電腦系統環境100僅為一示範電腦環境之一範例且無意對此處揭露之方法的使用或功能範圍假設任何限制。在該示範作業環境100中說明之元件的任一者或組合方面,該電腦環境100均不應被視為具有任何依賴或限制。
可利用數種其他一般目的或特殊目的電腦系統環境或配置操作此處揭露之方法。適用於此處揭露之方法的習知電腦系統、環境及/或配置包括但不限於個人電腦、伺服器電腦、手持或筆記型電腦裝置、多處理器系統、微處理器式系統、機上盒、可程式化消費性電子、網路個人電腦、微電腦、大型電腦、包括前述系統或裝置之任一者的分散式電腦環境等等。
此處揭露之方法及處理可被描述於電腦可執行指令之內容中,例如由一電腦所執行之程式模組。一般而言,程式模組包括常式、程式、物件、元件、資料結構等等,其執行特定任務或實施特定抽象資料類型。此處揭露之方法及處理亦可於分散式電腦環境中加以實施,其中任務係由透過一通信網路連結之遠端處理裝置所執行。在一分散式電腦環境中,程式模組可位於包括記憶體儲存裝置之區域及遠端電腦儲存媒體兩者之中。
參照第2圖,用於實施此處揭露之方法及處理的一示範系統包括一電腦110形式之一一般目的電腦裝置。電腦110之元件可包括但不限於一處理單元120、一系統記憶體130以及一系統匯流排121,其連接各種系統元件,包括但不限於系統記憶體130至處理單元120。系統匯流排121可為任何類型之匯流排結構,其包括一記憶體匯流排或記憶體控制器、一週邊匯流排、以及使用各種匯流排結構之任一者的一區域匯流排。不受限地舉例來說,此結構包括工業標準結構(ISA)匯流排、微通道結構(MCA)匯流排、增強型ISA(EISA)匯流排、視訊電子標準協會(VESA)區域匯流排、以及亦稱為Mezzanine匯流排之周邊元件互連(PCI)匯流排。
電腦110典型地包括多種電腦可讀取媒體。電腦可讀取媒體可為電腦110可存取的任何可用媒體,且包括依電性及非依電性媒體、可移除及不可移除媒體。不受限地舉例來說,電腦可讀取媒體可包含電腦儲存媒體及通信媒體。電腦儲存媒體包括以任何方法或技術所實施之依電性及非依電性、可移除及不可移除媒體,用以儲存資訊如電腦可讀取指令、資料結構、程式模組或其他資料。電腦儲存媒體包括但不限於RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位多媒體光碟(DVD)或其他光碟儲存、磁匣、磁帶、磁碟儲存或其他磁儲存裝置或任何其他媒體,其可被用於儲存所需資訊且可被電腦110存取。通信媒體典型地包含電腦可讀取指令、資料結構、程式模組或其他資料於一模組化資料信號如一載波或其他傳輸機制中,且包括任何資料傳遞媒體。該“模組化資料信號”一詞係指其一或多個特性被設置或改變之一方式係用以編碼該信號中的資訊的一信號。不受限地舉例來說,通信媒體包括有線媒體如一有線網路或直接連線,以及無線媒體如聲波、RF、紅外線及其他無線媒體。上述之任一者的組合亦應被包括於此處所使用之電腦可讀取媒體的範圍中。
系統記憶體130包括電腦儲存媒體,其形式為依電性及/或非依電性記憶體如唯讀記憶體(ROM)131及隨機存取記憶體(RAM)132。一基本輸入/輸出系統(BIOS)133典型地係儲存於ROM 131中,其含有基本常式以於例如啟動時協助在電腦110中的元件間傳送資訊。RAM 132典型地含有資料及/或程式模組,其可被處理單元120立即存取及/或目前正由其加以操作。不受限地舉例來說,第2圖說明作業系統134、應用程式135、其他程式模組136以及程式資料137。
電腦110亦可包括其他可移除/不可移除、依電性/非依電性電腦儲存媒體。舉例來說,第2圖說明讀寫不可移除、非依電性磁性媒體之一硬碟機140、讀寫一可移除、非依電性磁碟152之一磁碟機151、以及讀寫一可移除、非依電性光碟156如一CD-DOM或其他光學媒體的一光碟機155。其他可備用於該示範作業環境之可移除/不可移除、依電性/非依電性電腦儲存媒體包括但不限於磁帶匣、固態RAM、固態ROM等等。硬碟機141典型地透過一不可移除記憶體介面如介面140被連接至系統匯流排121,而磁碟機151及光碟機155典型地係由一可移除記憶體介面如介面150被連接至系統匯流排121。
前述且說明於第2圖中的機器及其相關電腦儲存媒體提供電腦110之電腦可讀取指令、資料結構、程式模組及其他資料的儲存。舉例來說,在第2圖中,硬碟機141被說明為儲存作業系統144、應用程式145、其他程式模組146以及程式資料147。注意這些元件可與作業系統134、應用程式135、其他程式模組136以及程式資料137相同或不同。此處給予作業系統144、應用程式145、其他程式模組146以及程式資料147不同的編號係用以說明至少其為不同的副本。
一使用者可透過輸入裝置如一鍵盤162及指向裝置161-一般係指一滑鼠、軌跡球或觸控板-輸入指令及資訊至電腦110中。其他輸入裝置(未顯示)可包括一麥克風、搖桿、遊戲控制盤、衛星碟盤、掃描器等等。這些及其他輸入裝置通常透過連接至系統匯流排121的一使用者輸入介面160被連接至處理單元120,但亦可藉由其他介面及匯流排結構被連接,例如一平行埠、遊戲埠或一通用序列匯流排(USB)。一螢幕191或其他類型之顯示裝置亦藉由一介面如一視訊介面190被連接至系統匯流排121。除了螢幕191之外,電腦110亦包括其他周邊輸出裝置如喇叭197及印表機196,其可透過一輸出周邊介面195被連接。
電腦110可使用邏輯連接至一或多個遠端電腦如一遠端電腦180而操作於一網路環境中。遠端電腦180可為一個人電腦、一伺服器、一路由器、一網路個人電腦、一對等裝置或其他共用網路節點,且典型地包括前述關於電腦110之許多或所有元件,即使僅有一記憶體儲存裝置181曾被說明於第2圖中。第2圖中描繪之邏輯連接包括一區域網路(LAN)171以及一廣域網路(WAN)173,但亦可包括其他網路。此網路環境常見於辦公室、企業級網路電腦網路、內部網路及該網際網路中。
當用於一LAN網路環境中時,電腦110透過一網路介面或配接卡170被連接至LAN 171。當用於一WAN網路環境中時,電腦110典型地包括一數據機172或其他用於在WAN 173上建立通信的裝置,如該網際網路。數據機172可為內建或外接式,其可透過使用者輸入介面160或其他適當機制被連接至系統匯流排121。在一網路環境中,關於電腦110所描述之程式模組或其部分可被儲存於該遠端記憶體儲存裝置中。不受限地舉例來說。第2圖說明遠端應用程式185係位於記憶體裝置181上。將瞭解所示之網路連接僅為示範性質,且可使用其他方式建立電腦間的一通信連結。
可使用一或多個應用程式-包括但不限於一搜尋排序應用程式-實施此處揭露之方法及處理,該應用程式可為示範系統100中被標記為應用程式135、應用程式145及遠端應用程式185的數種應用程式的其中一者。
如前所述,該些習知記憶人士將瞭解,所揭露之建立一特定文件之一文件相關性分數的方法可被實施於其他電腦系統配置中,其包括手持裝置、多處理器系統、微處理器式或可程式化消費型電子、網路個人電腦、微電腦、大型電腦等等。所揭露之建立一特定文件之一文件相關性分數的方法亦可被實施於分散式電腦環境中,其中任務係由透過一通信網路所連結之遠端處理裝置所執行。在一分散式電腦環境中,程式模組可位於區域及遠端記憶體儲存裝置中。
示範實施例的實施
如前所述,本發明提供在一網路上判定一文件之一文件相關性分數的方法。該揭露之方法可利用(i)考慮該網路上各文件之一偏擊距離數值的一排序功能,(ii)考慮指配一或多個邊緣數值於該網路上之文件間的邊緣(或連結)的一排序功能,或(iii)(i)及(ii)兩者以排序一網路上的一文件。
在一網路上判定一文件之一文件相關性分數之揭露方法可包含數個步驟。在一示範實施例中,在一網路上判定一文件之一文件相關性分數的方法包含儲存一網路上的文件及其連結資訊;由該文件及連結資訊建立該網路之一表示,其中該網路之表示包括表示該文件之節點及表示該連結之邊緣;指配一偏擊距離數值(CD A )於該網路上的至少兩節點,其中被指配一偏擊距離數值枝節點為授權節點;計算該網路之表示中各非授權節點之一偏擊距離,其中一特定非授權節點之一偏擊距離係從特定非授權節點至最靠近該特定非授權節點之一授權節點加以測量,其中該計算步驟對各非授權文件產生一計算偏擊距離數值(CD C );及使用各文件的偏擊距離數值(即CD A CD C )判定該網路上一特定文件之文件相關性分數。
儲存文件及一網路上文件之連結資訊的步驟可由常見於電腦系統上的索引應用程式碼所執行。該索引應用程式碼由該文件及連結資訊建立該網路之一表示,其中該網路之表示包括表示該文件之節點以及表示該連結之邊緣。該網路之此一表示一般被稱為一“網狀圖”(web graph)。建立一網狀圖的一示範方法包含使用一處理所聚集之資料,在該處理中聚集連結及連結文字(anchor text)資訊且歸屬於該連結之特定目標文件。此處理及連結文字之概念被更完全地描述於2004年8月30日提出之美國專利申請編號10/955,462,標題為“SYSTEM AND METHOD FOR INCORPORATING ANCHOR TEXT INTO RANKING SEARCH RESULTS”,本文藉由參照其全文而納入其主要內容。
第3圖描繪一示範網狀圖,其識別一網路空間中的文件以及該文件間的連結。如第3圖所示,示範網狀圖30包含節點31-其表示一特定網路空間(例如一企業內部網路)中的各文件,以及邊緣32-其表示一特定網路空間中文件之間的連結。應瞭解該示範網狀圖30僅為一特定網路空間之極度簡化的表示。典型地,一特定網路空間可包含成百上千甚而上萬個文件以及成百上千甚而上萬個連接文件彼此的連結。再者,雖然示範網狀圖30描繪多達八個連結連接至一特定節點(如中央節點33),但一特定節點可能具有上百個連結連接該節點(例如文件)至上百個該網路中的其他文件(例如一網路中的首頁可被連結至該網路中的各頁面)。
再者,即使未顯示於示範網狀圖30之上,但每對節點31之間的各邊緣32具有與其相關的一邊緣加權值(weight)。典型地,各邊緣32之一預設邊緣加權值為1;然而,如前所述,亦可指配1之外的一邊緣加權值至各邊緣32。再者,在某些實施例中,兩或多個不同邊緣加權值可被指配至相同網狀圖中的邊緣。在第3圖中,示範網狀圖30上顯示的字母p ,q ,r ,st 被用於指示某些邊緣32。如前所述,邊緣數值p ,q ,r ,st 可具有一數值為1、一數值為1以外之數、及/或彼此不同之數值,以進一步影響示範網狀圖30中節點的偏擊距離數值。典型地,邊緣數值p ,q ,r ,st 以及示範網狀圖30中的其他邊緣為相同的數字,且典型地等於1或大於1。在某些實施例中,邊緣數值p ,q ,r ,st 以及示範網狀圖30中的其他邊緣為相同的數字,且典型地等於或大於指配至一授權節點的最高偏擊距離數值。
用於修改一網狀圖以影響一網路上文件之偏擊距離數值的該一或多種技術可被一系統管理員手動起始及執行。該系統管理員可檢視一網狀圖,並且隨意編輯該網狀圖以如前述增加及/或降低一網路空間中一或多個文件的相對重要性。應用程式碼例如可實施一搜尋詢問之一電腦系統中的應用程式碼,可使用一或多種前述技術於一網狀圖中自動產生一偏移(例如計算各非授權節點的一偏擊距離數值(CD C ))。
第4A-4B圖表示一邏輯流程圖,其說明在一系統管理員之一選擇性降級程序之前,指配及建立一網狀圖上節點之偏擊距離數值之一示範方法中的示範步驟。如第4A圖中所示,示範方法401開始於方塊402且進行至步驟403。在步驟403中,在一網路空間中由N 個總結點(或URLs)選出數個授權節點(或URLs)。在示範方法401中選擇m 個授權節點(或URLs),其中m 大於或等於2。一旦選擇該授權節點(或URLs),示範方法401進行至選擇方塊404。
在選擇方塊404,一系統管理員判定是否指配至少兩不同偏擊距離數值(CD A )至m 個授權節點(或URLs)的兩或多者。若建立一選擇以指配至少兩不同偏擊距離數值(CD A )至該m 個授權節點(或URLs)的兩或多者,示範方法401進行至步驟405,其中至少兩偏擊距離數值(CD A )被指配至該m 個授權節點(或URLs)的兩或多者。舉例來說,參照第3圖中顯示的示範網狀圖30,授權節點33及34可被指配一偏擊距離數值0,授權節點35及36可被指配一偏擊距離數值+3,而授權節點48可被指配一偏擊距離數值+2。示範方法401自步驟405進行至選擇方塊407。
回到選擇方塊404,若建立一選擇為不指配至少兩不同偏擊距離數值(CD A )至該m 個授權節點(或URLs)的兩或多者,示範方法401進行至步驟406,其中該相同的偏擊距離數值(CD A )被指配至該m 個授權節點(或URLs)的各者。舉例來說,再次參照第3圖的示範網狀圖30,,各該授權節點可被指配一偏擊距離數值,例如0、+2或+5。示範方法401自步驟406前進至選擇方塊407。
於選擇方塊407,一系統管理員或應用程式碼判定是否指配1之外的一邊緣加權值至一網狀圖的一或多個邊緣。若建立一選擇為指配1之外的一邊緣加權值至一網狀圖的一或多個邊緣,則示範方法401進行至選擇方塊408。在選擇方塊408,一系統管理員判定是否指配一最小邊緣數值至一網狀圖之邊緣,其中該最小邊緣數值大於該最大指配偏擊距離數值(CD A m a x ),示範方法401進行至步驟409,其中大於該最大指配偏擊距離數值(CD A m a x )的一最小邊緣數值被指配至一網狀圖的各邊緣。舉例來說,參照第3圖中顯示的示範網狀圖30,若授權節點33被指配該最大偏擊距離數值(CD A m a x )且CD A m a x 等於+3,則大於+3的一最小邊緣數值被指配至第3圖中顯示的各邊緣32。
在某些實施例中,應用大於該最大偏擊距離數值(CD A m a x )的一最小邊緣數值至一網狀圖的各邊緣可具有某些優點。在此實施例中,此一技術保證各授權節點(或者文件或URL)的指配偏擊距離數值(CD A )小於一網狀圖中各非授權節點(或者文件或URL)的計算偏擊距離數值(CD C )。當一文件之重要性係依據一較低偏擊距離數值時,此一技術可使一網狀圖中所有授權節點(或者文件或URLs)被視為比非授權節點(或者文件或URLs)更為重要。
示範方法401自步驟409進行至選擇方塊410,如第4B圖所示並如後述。回到選擇方塊408,若選擇不指配一最小邊緣數值至各邊緣,其中該最小邊緣數值大於該最大指配偏擊距離數值(CD A m a x ),則示範方法401直接進行至選擇方塊410,如第4B圖所示並如後述。在此實施例中,一非授權節點可具有小於一授權節點的一偏擊距離數值(亦即被視為較該授權節點更為重要,其中一文件之重要性係依據一較低偏擊距離數值)。舉例來說,參照第3圖之示範網狀圖30,若授權節點34被指配一偏擊距離數值+3,授權節點48被指配一偏擊距離數值0,而邊緣數值s為+1,則非授權節點39具有一計算偏擊距離數值+1(亦即該最近授權節點48之指配偏擊距離數值0以及邊緣數值s+1的和)。
在第4B圖中顯示的選擇方塊410,一系統管理員判定是否指配至少兩不同邊緣數值至一網狀圖的兩或多個邊緣。若建立一選擇為指配至少兩不同邊緣數值至一網狀圖之兩或多個邊緣,則示範方法401進行至步驟411,其中至少兩不同邊緣數值被指配至一網狀圖的兩或多個邊緣。舉例來說,參照第3圖中顯示之示範網狀圖30,邊緣數值p ,q ,r ,st 之任兩者可被指配至少兩不同數字。示範方法401自步驟411進行至下述步驟414。
回到選擇方塊410,若建立一選擇為不指配至少兩不同邊緣數值至一網狀圖之兩或多個邊緣,則示範方法401進行至步驟412,其中該相同邊緣數值被指配至一網路圖的各邊緣,而該邊緣數值為除了1之外的一數值。舉例來說,參照第3圖中顯示的網狀圖30,各邊緣數值p ,q ,r ,st 被指配該相同數字以及除了1之外的一數字。示範方法401自步驟412進行至後述步驟414。
回到第4A圖中顯示之選擇方塊407,若建立一選擇為不指配一邊緣加權值至一網狀圖之一或多個邊緣,則示範方法401進行至步驟413,其中一預設邊緣數值(例如+1)被用於一網狀圖之各邊緣,因而該網狀圖之邊緣對計算偏擊距離數值具有一最小影響。在此實施例中,如授權節點之數目及位置相較於該預設邊緣數值對計算偏擊距離數值具有一較大影響。示範方法401自步驟413進行至第4B圖中所示之步驟414。
在步驟414中,計算非授權節點(或者文件或URLs)之偏擊距離數值(CD C )。如下文之詳細描述,直接連結至一授權節點之一特定目標節點(即非授權節點)的偏擊距離數值(CD Ctarget )可使用以下公式加以計算:CD Ctarget =min(CD Aclosest EdgeWeight ),其中CD Aclosest 表示最靠近該目標節點之授權節點的指配偏擊距離數值;而EdgeWeight (此處亦稱為EdgeValue )表示指配至連結該最近授權節點至該木雕節點之邊緣的邊緣數值或邊緣加權值。該min(x)函數被用於指示一最小計算偏擊距離數值被用於一特定節點,例如若該節點被直接連結至兩授權節點時。除了該些直接連結至一授權節點之外的一特定目標節點(即非授權節點)的偏擊距離數值(CD Ctarget )可使用以下公式加以計算:CD Ctarget =min(CD Cmin EdgeWeight ),其中CD Cmin 表示具有該最低計算偏擊距離數值之一鄰近節點的計算偏擊距離數值;而EdgeWeight 表示指配至連結該具有最低計算偏擊距離數值之鄰近節點及該目標節點之邊緣的邊緣數值或邊緣加權值。示範方法401自步驟414進行至步驟415。
在步驟415中,該結果偏擊距離數值-指配的(CD A )及計算的(CD C )-係由一系統管理員所測試。典型地,該系統管理員藉由使用該結果偏擊距離數值(指配的(CD A )及計算的(CD C ))而執行一或多個搜尋詢問而測試該系統。若該系統管理員明顯注意到無關內容傳回,該系統管理員可使用前述偏移工具/技術以降級一或多個位置,例如檔案資料夾或網站,建立該無關內容。前述測試使一系統管理員得以評估該偏擊距離數值的可能不一致,其介於(i)一網路空間中一特定文件的實際重要性以及(ii)由其偏擊距離數值所指示之該文件的重要性之間。示範方法401自步驟415進行至選擇方塊416。
在選擇方塊416,一系統管理員判定是否降級任何偏擊距離數值以更接近地表示一網路空間中一特定文件的重要性。若建立一選擇為降級一或多個偏擊距離數值以更接近地表示一網路空間中一或多個文件的重要性,則示範方法401進行至步驟417,其中一或多個文件(或URLs)的偏擊距離數值被正向或負向調整。示範方法401自步驟417進行至步驟418。
回到選擇方塊416,若建立一選擇為不降級一或多個偏擊距離數值以更接近地表示一網路空間中一或多個文件的重要性,則示範方法401直接進行至步驟418。在步驟418中,指配至授權節點以及對非授權節點計算之偏擊距離數值在一排序功能中被利用,以判定一網路空間中各文件的一整體資料相關性分數。示範方法401自步驟418進行至結束方塊419。
如前所述,一網狀圖上非授權節點(或URLs)的偏擊距離數值(CD C )係依據一特定非授權節點-亦稱為一“目標節點”-與該最接近授權節點(或URL)之間的最短距離加以計算。第5A-5B圖描繪計算一網路空間中一非授權URLs的偏擊距離數值(CD C )的一示範處理。
第5A-5B圖說明計算一網路空間中非授權節點(或URLs)之偏擊距離(CD C )之一示範處理40的一邏輯流程圖。示範處理40起始於方塊4140並進行至步驟4141,其中一網狀圖包含(i)授權節點與其指配偏擊距離數值(CD A ),(ii)非授權節點,(iii)節點之間的連結,及(iv)各連結的邊緣數值,其自一資料庫被載入至記憶體中。(參見例如第3圖中的網狀圖30)。可使用前述之一索引程序而於先前建立該網狀圖。示範處理40自步驟4141進行至步驟4142。
在步驟4142中,非授權節點的偏擊距離數值(CD C )被初始化為一最大偏擊距離數值,如無限大。指配一最大偏擊數值距離-如無限大-至該非授權節點係識別節點之一偏擊距離數值(CD C )需要加以計算。一旦完成最大偏擊距離數值的初始化,示範處理40進行至步驟4143。
在步驟4143中,該m 個授權節點被插入至一佇列中。插入至該佇列之m 個授權節點對應至一系統管理員或某些其他系統決定者預先決定該網路空間的m 個最授權節點。一旦該m 個授權節點被增加至該佇列,示範處理40進行至選擇方塊4144。
在選擇方塊4144,該應用程式碼判定該佇列是否為空的。一空佇列表示該網狀圖之所有節點(i)已取得一指配偏擊距離數值(CD A )或(ii)其偏擊距離數值(CD C )已被計算。若該佇列為空的,則示範處理40進行至結束方塊4145並結束。反之,若該佇列並非為空的,則示範處理40繼續步驟4146。
在步驟4146中,具有該最小偏擊距離數值(即CD A CD C )的節點係自該佇列移除。此處將此節點稱為“目前節點”。在透過示範處理40之第一重複過程中,具有最小指配偏擊距離數值(即CD Amin )的授權節點為該目前節點。在後續透過示範處理40的重複過程中,具有該最小偏擊距離數值的節點可為一授權節點或一非授權節點。在透過示範處理40的最後重複過程中,具有該最小指配偏擊距離數值的節點典型地為一非授權節點。一旦具有該最小偏擊距離數值(即CD A CD C )的節點自該佇列移除之後,示範處理40進行至選擇方塊4147。
在選擇方塊4147,該應用程式碼判定該目前節點是否具有任何目標節點。此處使用之“目標節點”一詞係指連結至該目前節點之一或多個節點。若該目前節點不具有任何目標節點,則示範處理40回到選擇方塊414以再次判定該佇列是否為空的,且隨後如前述繼續進行。然而,若該目前節點具有一或多個目標節點,則示範處理40進行至步驟4148。
在步驟4148中,自該網狀圖擷取及估算與該目前節點有關之一目標節點。舉例來說,參照第3圖之示範網狀圖30,若授權節點48為該目前節點(即具有最小偏擊距離數值的節點),則非授權節點39之任一者可為該目標節點(即連結至授權節點48且具有一初始偏擊距離數值被設為無限大)。一旦選擇一目前節點及一目標節點,示範處理40進行至選擇方塊4149。
在選擇方塊4149,該應用程式碼判定與該目標節點偏擊距離數值有關之點擊距離是否大於該目前節點之偏擊距離數值加上連接該目前節點至該目標節點之邊緣的一邊緣數值。若建立一判定為該目標節點偏擊距離數值大於該目前節點之偏擊距離數值加上連接該目前節點至該目標節點之邊緣的一邊緣加權值,則示範處理40進行至步驟4150(顯示於第5B圖中),其中該目標節點偏擊距離數值被更新為等於該目前節點之偏擊距離數值加上連接該目前節點至該目標節點之邊緣的邊緣加權值。
在透過示範處理40之第一重複過程中,所有目標節點將具有一初始目標節點偏擊距離數值被設為無限大。因此,示範處理40將進行至步驟4150,其中該目標節點之偏擊距離數值將如前述加以更新。然而,在透過示範處理40之後續重複中,該選擇之目標節點舉例而言可具有一初始目標節點偏擊距離數值被設為無限大(示範處理將進行至步驟4150)或可具有該系統管理員先前配置之一偏擊距離數值(例如該目標節點為一授權節點)。示範處理40自步驟4150進行至步驟4151。
在步驟4151中,具有一更新目標節點偏擊距離數值之目前節點及該目標節點均被加入至該佇列中。示範步驟40自步驟4150回到選擇方塊4146(顯示於第5A圖中)且如前述繼續進行。
回到選擇方塊4149(顯示於第5A圖中),若建立一判定為該目標節點偏擊距離數值並未大於該目前節點之偏擊距離數值加上連接該目前節點至該目標節點之邊緣的一邊緣加權值,則(i)該目標節點保持其計算之目標節點偏擊距離數值,(ii)該目標節點維持在佇列之外,以及(iii)示範處理40回到選擇方塊4147(顯示於第5A圖中)以判定該目前節點是否具有任何其他目標節點。若建立一判定為該目前節點並不具有其他目標節點,則示範處理40回到選擇方塊4144並如前述繼續進行。若建立一判定為該目前節點具有其他目標節點,則示範處理40進行至步驟4148並如前述繼續進行。
當示範處理40回到步驟4148時,如前所述選擇及估算與該目前節點有關之另一目標節點。若該選擇之目標節點先前並未被選擇,則該目標節點將具有一初始偏擊距離數值被設為無限大,而示範處理40將如前述進行至步驟4150。
前述提供一偏擊距離數值至一網狀圖上所有節點的示範方法可防止一特定目標節點之一偏擊距離數值在該偏擊距離數值低於一目前節點之一偏擊距離數值加上連結該目標節點至該目前節點之邊緣的一邊緣數值時被改變。
一旦已判定及選擇性地降級(或選擇性地升級)一特定網狀圖的所有節點時,若有需要,各文件之偏擊距離數值可被使用作為一排序功能中的一參數,以提供各文件之一文件相關性分數。此一文件相關性分數可被用於排序一搜尋詢問之搜尋結果。使用含有一偏擊距離數值參數之一排序功能而建立排序搜尋結果的一示範方法被顯示於第6圖中。
第6圖提供一邏輯流程圖,其說明示範方法20中的示範步驟,其中示範方法20包含一種使用含有一偏擊距離數值參數之一排序功能而建立排序搜尋結果的方法。如第6圖中所示,示範方法20起始於方塊201且進行至步驟202。在步驟202中,一使用者藉由輸入一搜尋詢問而請求一搜尋。在步驟202之前,該網路上各文件之偏擊距離數值已預先加以計算。示範方法自步驟202進行至步驟203。
在步驟203中,一網路上各文件之偏擊距離數值與儲存於該索引中的各文件的任何其他文件統計(例如詢問獨立統計)合併。合併該偏擊距離數值與其他文件統計將因為所有關於排序的資訊被群聚在一起而允許更快的詢問回應時間。因此在該合併之後,列於索引中的各文件具有一相關的偏擊距離數值。一旦完成該合併,示範方法20進行至步驟204。
在步驟204中,一特定文件之詢問獨立文件統計,包括一偏擊距離數值,被提供作為一排序功能的一部分。詢問相依資料亦被提供給該特定文件,典型地作為該排序功能之一分離部分。該排序功能的詢問獨立資料或內容相關部分依據該實際搜尋術語以及該特定文件之內容而定。
在一實施例中,該排序功能包含至少一詢問相依(QD)部分以及至少一詢問獨立(QID)部分的總和,例如ScoreQD (doc ,query )+QID (doc )該QD部分可為任一文件評分功能。在一實施例中,該QD部分對應至一欄位加權評分功能,其被描述於2004年3月18日提出之名為“FIELD WEIGHTING IN TEXT DOCUMENT SEARCHING”的美國專利申請編號10/804,326,本文已藉由參照而完全地加以納入。如美國申請專利編號10/804,326中所述,可被使用作為該欄位加權評分功能之一表示的一方程式為: 其中:表示該搜尋詢問中一加權術語頻率或特定術語之術語頻率的總和乘以所有欄位(例如該文件之標題、本文等等)的加權值,並且依據各欄位的長度以及該對應平均長度而加以正規化,N 表示該網路上的文件數量,n 表示含有一詢問術語之文件數量,及k 1 為一可調整常數。
前述術語及方程式被進一步詳細描述於美國申請專利編號10/804,326,其主要內容已藉由參照而納入本文中。
該QID部分可為一特定文件之一偏擊距離數值以及其他文件統計(例如一URL深度)的任何變換。在一實施例中,該QID部分包含一函數如下: 其中:w cd 表示一搜尋獨立部分例如含有一偏擊距離參數的一部分的一加權值,b cd 表示關於該URL深度之一偏擊距離的一加權值,b ud 表示一URL深度的一加權值,CD 表示一文件之一計算點擊距離或指配偏擊距離,表示藉由最佳化該排序功能之準確性而判定之一調整常數,類似於其他調整參數(即k ew 可於所有邊緣具有相同邊緣加權值時表示該邊緣加權值,或者k ew 可於邊緣加權值彼此不同時表示該平均或中間邊緣數值),UD 表示一URL深度,及k cd 為該偏擊距離飽和常數。
該加權項(w cd b cd b ud )協助定義其各個相關項(即含有一偏擊距離參數之部分、一特定文件之偏擊距離數值以及該特定文件之URL深度)的重要性以及最後該評分功能的結果。
該URL深度(UD)為前述參照之詢問獨立部分的一選擇性附加以緩和該偏擊距離數值對該評分功能的影響。舉例來說,在某些情形中,不是很重要的一文件(即具有一很大的URL深度)可具有一短的偏擊距離數值。該URL深度係由一文件之URL的斜線數量所表示。舉例來說,www.example.com\d1\d2\d3\d4.htm包括四個斜線因而其URL深度為4。然而此文件可具有一直接源自該主頁面www.example.com的連結而給予一相對較低的偏擊距離數值。包括該URL深度項於前述參照之函數中並且加權該URL深度項於該偏擊距離數值可補償一相對較高的偏擊距離數值,更準確地反映該網路中該文件的重要性。依據該網路,3以上的一URL深度可被視為一深連結。
在一實施例中,用於判定一特定文件之一文件相關性分數的排序功能包含以下的一函數: 其中各項如前所述。
在其他實施例中,可自該排序功能中移除該URL深度或加上其他部分至該排序功能以增加該詢問相依部分、該詢問獨立部分或兩者之準確性。再者,含有一偏擊距離參數之前述詢問獨立部分可被納入其他排序功能(未顯示)以增進搜尋結果之排序。
一旦一特定文件之文件統計於步驟204被提供至一排序功能,示範方法20進行至步驟205。在步驟205中,對一特定文件判定一文件相關性分數,並將其儲存於記憶體中並與該特定文件關聯。示範方法20自步驟205進行至選擇方塊206。
在選擇方塊206,應用程式碼判定一文件相關性分數是否已對一網路中的各文件而加以計算。若建立一判定為一文件相關性分數並未對一網路中的各文件加以計算,則示範方法20回到步驟204並如前述繼續。
在步驟207中,包含數個文件之詢問的搜尋結果係依據其相關文件相關性分數而加以排序。該結果文件相關性分數考慮該網路中各文件的偏擊距離數值。一旦該搜尋結果被排序,示範方法20進行至步驟208以顯示排序結果予一使用者。示範方法20自步驟208進行至步驟209以選擇最高排序結果並由該使用者所檢視。示範方法20自步驟209進行至步驟210以結束該示範方法20。除了前述建立一網路中文件的一文件相關性分數且使用文件相關性分數排序一搜尋詢問之搜尋結果的方法之外,此文中亦揭露已儲存電腦可執行指令以執行前述方法的電腦可讀取媒體。
此文中亦揭露電腦系統。一示範電腦系統包含可用於該電腦系統上的至少一應用程式模組,其中該至少一應用程式模組包含應用程式碼載入於其上,其中該應用程式碼執行一種建立一網路中文件之一文件相關性分數的方法。該應用程式碼亦可被載入至使用任何其上具有電腦可執行指令之前述電腦可讀取媒體的電腦系統上,以建立一網路中文件的一文件相關性分數,並使用文件相關性分數如前所述排序一搜尋詢問的搜尋結果。
雖然已於相關特定實施例中詳細描述該說明書,但將瞭解該些習知記憶人士於獲取及瞭解前述內容後可輕易設想這些實施例的替代、變化以及均等物。因此,所揭露之方法、電腦可讀取媒體以及電腦系統之範圍應依據該附加申請專利範圍以及其均等物而加以評估。
10,40...示範處理
20,401...示範方法
30...網狀圖
31...節點
32...邊緣
33,34,35,36,48...授權節點
100...電腦系統環境
110...電腦
120...處理單元
121...匯流排
130...系統記憶體
131...唯讀記憶體(ROM)
132...隨機存取記憶體(RAM)
133...基本輸入/輸出系統(BIOS)
134,144...作業系統
135,145,185...應用程式
136,146...程式模組
137,147...程式資料
140...硬碟機
150...介面
151...磁碟機
152...磁碟
155...光碟機
156...光碟
160...使用者輸入介面
161...指向裝置
162...鍵盤
170...網路介面or配接卡
171...區域網路(LAN)
173...廣域網路(WAN)
180...遠端電腦
181...記憶體儲存裝置
190...視訊介面
191...螢幕
195...輸出周邊介面
196...印表機
197...喇叭
第1圖表示一示範邏輯流程圖,其說明一種回應一使用者輸入一搜尋詢問而產生排序搜尋結果之方法的示範步驟;第2圖為實施此處揭露之方法及處理之一示範操作環境之某些主要元件的一方塊圖。
第3圖描繪一示範網狀圖,其識別一網路空間中的文件、該文件間的連結、具有一指派偏擊距離數值之授權節點(authoritative nodes)、以及具有一計算偏擊距離數值之非授權節點;第4A-4B圖表示一邏輯流程圖,其說明一種指派及建立一網狀圖上之節點之偏擊距離數值之方法中的示範步驟;第5A-5B圖表示一邏輯流程圖,其說明一種建立一網狀圖上之非授權節點之偏擊距離數值之方法中的示範步驟;及第6圖表示一邏輯流程圖,其說明一種使用含有一偏擊距離數值參數之一排序功能而排序建立之搜尋結果之方法中的示範步驟。

Claims (20)

  1. 一種其上存有電腦可讀取指令以用於排序一網路上的文件的電腦可讀取媒體,當由該電腦執行時,該等電腦可執行指令實行一方法,該方法包含以下步驟:接收一搜尋詢問;執行該搜尋詢問以建立複數個文件的一清單,其中該等複數個文件的該清單包括一或更多個授權文件及非授權文件;藉由使用包含一或更多個詢問獨立(query-independent)部分的一排序(ranking)功能,來排序該等複數個文件的該清單,其中至少一詢問獨立部分包括一偏擊距離(biased click distance)參數,該偏擊距離參數係考慮一偏擊距離數值,且其中對於該等非授權文件的該偏擊距離數值,係依據從該等非授權文件至該網路之中最近的授權文件之一連結距離而計算;及根據該排序而輸出搜尋結果。
  2. 如申請專利範圍第1項所述之電腦可讀取媒體,其中一偏擊距離數值被指配至m 個位在包含N 個總文件之一網路上的授權文件,其中m 大於或等於2且小於N
  3. 如申請專利範圍第2項所述之電腦可讀取媒體,其中該指配偏擊距離數值之至少兩者與彼此不同。
  4. 如申請專利範圍第1項所述之電腦可讀取媒體,其中該排序功能更包含至少一詢問獨立部分,其包括考慮該網路上各邊緣之邊緣數值的一邊緣數值參數,其中一或多個邊緣數值為除了1之外的一數字。
  5. 如申請專利範圍第4項所述之電腦可讀取媒體,其中該等邊緣數值彼此相等,且等於除了1之外的一數字。
  6. 如申請專利範圍第4項所述之電腦可讀取媒體,其中該等邊緣數值彼此相等,且等於或大於初始地指配至一或多個授權文件之一最高偏擊距離數值。
  7. 如申請專利範圍第4項所述之電腦可讀取媒體,其中該至少一詢問獨立部分包括該偏擊距離參數以及該邊緣數值參數兩者。
  8. 如申請專利範圍第1項所述之電腦可讀取媒體,更包含電腦可執行指令以將該排序功能所建立之一分數指配至該網路上的各文件,該分數係用於以升冪或降冪順序之方式來排列文件。
  9. 如申請專利範圍第7項所述之電腦可讀取媒體,其中各 文件之分數係使用一公式所建立: 其中:wtf' 表示一加權的術語(term)頻率,N 表示該網路上的文件數量,n 表示含有一詢問術語的文件數量,w cd 表示一詢問獨立部分的一加權值,b cd 表示一點擊距離的一加權值,b ud 表示一URL深度的一加權值,CD 表示一文件的一計算點擊距離或指配偏擊距離,k ew 表示關於邊緣加權值之一調整常數,UD 表示一URL深度,及k cd k 1 為常數。
  10. 如申請專利範圍第1項所述之電腦可讀取媒體,更包含電腦可執行指令以接收一使用者所輸入之一搜尋詢問,執行該網路上該文件之一搜尋以建立含有多文件之搜尋結果,使用該排序功能排序該搜尋結果之多文件以建立排序之搜尋結果,以及顯示該排序之搜尋結果至該使用者。
  11. 一種電腦系統,其含有可使用於該電腦系統之上的至少一應用程式模組,其中該至少一應用程式模組包含自申請專利範圍第1項之電腦可讀取媒體處載入於其上的應用程式碼。
  12. 一種判定在一網路上一文件之一文件相關性分數的方法,該方法至少包含以下步驟:儲存在一網路上之文件的文件及連結資訊;由該文件及連結資訊建立該網路之一表示(representation),其中該網路之表示包括表示該文件之節點以及表示該連結之邊緣;指配一偏擊距離數值至該網路上的至少兩節點,其中被指配一偏擊距離數值的節點為授權節點;對該網路之表示中的各個非授權節點計算一點擊距離,其中一特定非授權節點的點擊距離係從該特定非授權節點測量至最靠近該特定非授權節點之一授權節點,該計算步驟產生各文件的一偏擊距離數值;及使用各文件的偏擊距離數值判定該網路上一給定文件的文件相關性分數。
  13. 如申請專利範圍第12項所述之方法,其中至少兩授權節點已被指配與彼此不同的偏擊距離數值。
  14. 如申請專利範圍第12項所述之方法,更包含以下步驟:指配一邊緣數值至該表示中的各邊緣,其中該邊緣數值等於或大於1。
  15. 如申請專利範圍第14項所述之方法,其中各邊緣數值大於指配至該任一授權節點的一最高偏擊距離數值。
  16. 如申請專利範圍第12項所述之方法,其中該網路上各文件的文件相關性分數係使用一方程式所建立: 其中:wtf' 表示一加權的術語頻率,N 表示該網路上的文件數量,n 表示含有一詢問術語的文件數量,w cd 表示一詢問獨立部分的一加權值,b cd 表示一點擊距離的一加權值,b ud 表示一URL深度的一加權值,CD 表示一文件的一計算點擊距離或指配偏擊距離,k ew 表示關於邊緣加權值之一調整常數,UD 表示一URL深度,及k cd k 1 為常數。
  17. 一種排序在一網路上文件的方法,該方法至少包含以下步驟:使用申請專利範圍第12項所述之方法而對該網路上各文件判定一文件相關性分數;及依據各文件之文件相關性分數而以降冪順序之方式來排序該文件。
  18. 一種排序一搜尋詢問之搜尋結果的方法,該方法至少包含以下步驟:使用申請專利範圍第12項所述之方法而判定一搜尋詢問之搜尋結果中各文件的一文件相關性分數;及依據各文件之文件相關性分數而排序該文件。
  19. 一種電腦可讀取媒體,其上存有電腦可執行指令以供執行申請專利範圍第12項之方法。
  20. 一種電腦系統,其含有可用於該電腦系統之上的至少一應用程式模組,其中該至少一應用程式模組包含應用程式碼,以執行一種判定一網路上一文件之一文件相關性分數的方法,該方法至少包含以下步驟:指配一偏擊距離數值至該網路之一表示上的至少 兩節點,其中該等被指配到一偏擊距離數值的節點為授權節點;對該網路之表示中的各非授權節點計算一點及距離,其中一特定非授權節點的點擊距離係自該特定非授權節點測量至最靠近該特定非授權節點的一授權節點,該計算步驟產生各文件的一偏擊距離數值;及使用各文件的偏擊距離數值以判定該網路上一給定文件的文件相關性分數。
TW095129817A 2005-08-15 2006-08-14 使用網路文件的偏擊距離之排序功能 TWI396984B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/206,286 US7599917B2 (en) 2005-08-15 2005-08-15 Ranking search results using biased click distance

Publications (2)

Publication Number Publication Date
TW200719183A TW200719183A (en) 2007-05-16
TWI396984B true TWI396984B (zh) 2013-05-21

Family

ID=37743763

Family Applications (1)

Application Number Title Priority Date Filing Date
TW095129817A TWI396984B (zh) 2005-08-15 2006-08-14 使用網路文件的偏擊距離之排序功能

Country Status (17)

Country Link
US (1) US7599917B2 (zh)
EP (1) EP1915703A4 (zh)
JP (1) JP2009505292A (zh)
KR (1) KR101301380B1 (zh)
CN (1) CN101243435A (zh)
AU (1) AU2006279520B2 (zh)
BR (1) BRPI0614274A2 (zh)
CA (1) CA2618854C (zh)
IL (1) IL188902A (zh)
MX (1) MX2008002173A (zh)
MY (1) MY147720A (zh)
NO (1) NO20080376L (zh)
NZ (1) NZ565640A (zh)
RU (1) RU2421802C2 (zh)
TW (1) TWI396984B (zh)
WO (1) WO2007022252A1 (zh)
ZA (1) ZA200801435B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7739277B2 (en) * 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7761448B2 (en) 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7827181B2 (en) * 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7716198B2 (en) * 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US7792833B2 (en) * 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20060200460A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
US8156112B2 (en) * 2006-11-07 2012-04-10 At&T Intellectual Property I, L.P. Determining sort order by distance
US8234272B2 (en) * 2007-05-04 2012-07-31 Sony Mobile Communications Ab Searching and ranking contacts in contact database
US20080319975A1 (en) * 2007-06-22 2008-12-25 Microsoft Corporation Exploratory Search Technique
US20090006358A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Search results
EP2031819A1 (en) * 2007-09-03 2009-03-04 British Telecommunications Public Limited Company Distributed system
US9224149B2 (en) * 2007-10-15 2015-12-29 Google Inc. External referencing by portable program modules
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US7840569B2 (en) * 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US20090204889A1 (en) * 2008-02-13 2009-08-13 Mehta Rupesh R Adaptive sampling of web pages for extraction
US8010535B2 (en) 2008-03-07 2011-08-30 Microsoft Corporation Optimization of discontinuous rank metrics
US7958136B1 (en) * 2008-03-18 2011-06-07 Google Inc. Systems and methods for identifying similar documents
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US20100169311A1 (en) * 2008-12-30 2010-07-01 Ashwin Tengli Approaches for the unsupervised creation of structural templates for electronic documents
US8041729B2 (en) * 2009-02-20 2011-10-18 Yahoo! Inc. Categorizing queries and expanding keywords with a coreference graph
US20100228738A1 (en) * 2009-03-04 2010-09-09 Mehta Rupesh R Adaptive document sampling for information extraction
JP5261326B2 (ja) * 2009-08-28 2013-08-14 日本電信電話株式会社 情報検索装置、情報検索プログラム
TWI497322B (zh) * 2009-10-01 2015-08-21 Alibaba Group Holding Ltd The method of determining and using the method of web page evaluation
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US9436764B2 (en) * 2010-06-29 2016-09-06 Microsoft Technology Licensing, Llc Navigation to popular search results
US9183299B2 (en) * 2010-11-19 2015-11-10 International Business Machines Corporation Search engine for ranking a set of pages returned as search results from a search query
US8898156B2 (en) 2011-03-03 2014-11-25 Microsoft Corporation Query expansion for web search
US9529915B2 (en) * 2011-06-16 2016-12-27 Microsoft Technology Licensing, Llc Search results based on user and result profiles
US8572096B1 (en) * 2011-08-05 2013-10-29 Google Inc. Selecting keywords using co-visitation information
US9348846B2 (en) 2012-07-02 2016-05-24 Google Inc. User-navigable resource representations
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
CN104424291B (zh) * 2013-09-02 2018-12-21 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法及装置
US9721309B2 (en) * 2013-12-31 2017-08-01 Microsoft Technology Licensing, Llc Ranking of discussion threads in a question-and-answer forum
JP5639319B1 (ja) * 2014-04-07 2014-12-10 楽天株式会社 情報処理装置、情報処理方法、プログラム、記憶媒体
WO2015179328A1 (en) 2014-05-22 2015-11-26 3M Innovative Properties Company Neural network-based confidence assessment module for healthcare coding applications
US11226969B2 (en) * 2016-02-27 2022-01-18 Microsoft Technology Licensing, Llc Dynamic deeplinks for navigational queries
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10430581B2 (en) * 2016-12-22 2019-10-01 Chronicle Llc Computer telemetry analysis

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
TW200422878A (en) * 2002-08-05 2004-11-01 Yahoo Inc Method and apparatus for search ranking using human input and automated ranking

Family Cites Families (145)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222236A (en) * 1988-04-29 1993-06-22 Overdrive Systems, Inc. Multiple integrated document assembly data processing system
US5257577A (en) 1991-04-01 1993-11-02 Clark Melvin D Apparatus for assist in recycling of refuse
US6202058B1 (en) * 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
US5606609A (en) * 1994-09-19 1997-02-25 Scientific-Atlanta Electronic document verification system and method
US5594660A (en) * 1994-09-30 1997-01-14 Cirrus Logic, Inc. Programmable audio-video synchronization method and apparatus for multimedia systems
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5933851A (en) 1995-09-29 1999-08-03 Sony Corporation Time-stamp and hash-based file modification monitor with multi-user notification and method thereof
US5974455A (en) * 1995-12-13 1999-10-26 Digital Equipment Corporation System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table
US6314420B1 (en) 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5745890A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
CN1107291C (zh) * 1996-10-02 2003-04-30 日本电信电话株式会社 分层结构的图形显示方法及装置
US6285999B1 (en) * 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US5848404A (en) 1997-03-24 1998-12-08 International Business Machines Corporation Fast query search in large dimension database
US6256675B1 (en) 1997-05-06 2001-07-03 At&T Corp. System and method for allocating requests for objects and managing replicas of objects on a network
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JPH1125119A (ja) * 1997-06-30 1999-01-29 Canon Inc ハイパーテキスト閲覧システム
US5983216A (en) 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6182113B1 (en) * 1997-09-16 2001-01-30 International Business Machines Corporation Dynamic multiplexing of hyperlinks and bookmarks
US6070191A (en) * 1997-10-17 2000-05-30 Lucent Technologies Inc. Data distribution techniques for load-balanced fault-tolerant web access
US6351467B1 (en) * 1997-10-27 2002-02-26 Hughes Electronics Corporation System and method for multicasting multimedia content
US6594682B2 (en) * 1997-10-28 2003-07-15 Microsoft Corporation Client-side system for scheduling delivery of web content and locally managing the web content
US6128701A (en) 1997-10-28 2000-10-03 Cache Flow, Inc. Adaptive and predictive cache refresh policy
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6145003A (en) 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
KR100285265B1 (ko) * 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US6185558B1 (en) * 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6125361A (en) 1998-04-10 2000-09-26 International Business Machines Corporation Feature diffusion across hyperlinks
US6240407B1 (en) * 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6098064A (en) 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
US6285367B1 (en) 1998-05-26 2001-09-04 International Business Machines Corporation Method and apparatus for displaying and navigating a graph
US6182085B1 (en) * 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
US6208988B1 (en) * 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
JP2002517860A (ja) * 1998-06-08 2002-06-18 ケイシーエスエル インク. データベースから関連情報を検索する方法およびシステム
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6638314B1 (en) 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
JP4638984B2 (ja) 1998-08-26 2011-02-23 フラクタル エッジ リミテッド データファイルをマッピングするための方法および装置
US6549897B1 (en) * 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6360215B1 (en) * 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
US6628304B2 (en) 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6922699B2 (en) * 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6418433B1 (en) * 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6327590B1 (en) 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US7835943B2 (en) * 1999-05-28 2010-11-16 Yahoo! Inc. System and method for providing place and price protection in a search result list generated by a computer network search engine
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US7072888B1 (en) * 1999-06-16 2006-07-04 Triogo, Inc. Process for improving search engine efficiency using feedback
US6973490B1 (en) 1999-06-23 2005-12-06 Savvis Communications Corp. Method and system for object-level web performance and analysis
US6547829B1 (en) * 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6598047B1 (en) * 1999-07-26 2003-07-22 David W. Russell Method and system for searching text
US6442606B1 (en) 1999-08-12 2002-08-27 Inktomi Corporation Method and apparatus for identifying spoof documents
US6636853B1 (en) 1999-08-30 2003-10-21 Morphism, Llc Method and apparatus for representing and navigating search results
AU1039301A (en) 1999-10-29 2001-05-08 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6263364B1 (en) * 1999-11-02 2001-07-17 Alta Vista Company Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness
US6351755B1 (en) * 1999-11-02 2002-02-26 Alta Vista Company System and method for associating an extensible set of data with documents downloaded by a web crawler
US6418453B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6418452B1 (en) * 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
US6539376B1 (en) * 1999-11-15 2003-03-25 International Business Machines Corporation System and method for the automatic mining of new relationships
US6886129B1 (en) * 1999-11-24 2005-04-26 International Business Machines Corporation Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US6931397B1 (en) 2000-02-11 2005-08-16 International Business Machines Corporation System and method for automatic generation of dynamic search abstracts contain metadata by crawler
US6910029B1 (en) * 2000-02-22 2005-06-21 International Business Machines Corporation System for weighted indexing of hierarchical documents
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6633867B1 (en) 2000-04-05 2003-10-14 International Business Machines Corporation System and method for providing a session query within the context of a dynamic search result set
US6718365B1 (en) * 2000-04-13 2004-04-06 International Business Machines Corporation Method, system, and program for ordering search results using an importance weighting
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6772160B2 (en) * 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
JP3573688B2 (ja) 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6601075B1 (en) * 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US6633868B1 (en) 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US6959326B1 (en) 2000-08-24 2005-10-25 International Business Machines Corporation Method, system, and program for gathering indexable metadata on content at a data repository
US6598051B1 (en) * 2000-09-19 2003-07-22 Altavista Company Web page connectivity server
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6622140B1 (en) 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP2002157271A (ja) * 2000-11-20 2002-05-31 Yozan Inc ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法
US20020103920A1 (en) * 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US20020078045A1 (en) * 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
US6778997B2 (en) * 2001-01-05 2004-08-17 International Business Machines Corporation XML: finding authoritative pages for mining communities based on page structure criteria
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US7571177B2 (en) * 2001-02-08 2009-08-04 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US6738764B2 (en) * 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
WO2002091154A2 (en) * 2001-05-10 2002-11-14 Changingworlds Limited Intelligent internet website with hierarchical menu
US6928425B2 (en) * 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
US7076483B2 (en) * 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US6766422B2 (en) * 2001-09-27 2004-07-20 Siemens Information And Communication Networks, Inc. Method and system for web caching based on predictive usage
US6944609B2 (en) 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US7428695B2 (en) 2001-10-22 2008-09-23 Hewlett-Packard Development Company, L.P. System for automatic generation of arbitrarily indexed hyperlinked text
US6763362B2 (en) * 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
US6829606B2 (en) 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
US6934714B2 (en) 2002-03-04 2005-08-23 Intelesis Engineering, Inc. Method and system for identification and maintenance of families of data records
US7693830B2 (en) * 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US20040006559A1 (en) * 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
CA2489236C (en) 2002-06-12 2014-01-14 Jena Jordahl Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
CA2395905A1 (en) * 2002-07-26 2004-01-26 Teraxion Inc. Multi-grating tunable chromatic dispersion compensator
US7152059B2 (en) 2002-08-30 2006-12-19 Emergency24, Inc. System and method for predicting additional search results of a computerized database search user based on an initial search query
US7013458B2 (en) * 2002-09-09 2006-03-14 Sun Microsystems, Inc. Method and apparatus for associating metadata attributes with program elements
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7020648B2 (en) * 2002-12-14 2006-03-28 International Business Machines Corporation System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata
US20040125606A1 (en) * 2002-12-26 2004-07-01 Kang-Ling Hwang Box type sensor lamp
US20040148278A1 (en) * 2003-01-22 2004-07-29 Amir Milo System and method for providing content warehouse
US6947930B2 (en) 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7216123B2 (en) * 2003-03-28 2007-05-08 Board Of Trustees Of The Leland Stanford Junior University Methods for ranking nodes in large directed graphs
US7028029B2 (en) * 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7228301B2 (en) * 2003-06-27 2007-06-05 Microsoft Corporation Method for normalizing document metadata to improve search results using an alias relationship directory service
US7308643B1 (en) 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US7552109B2 (en) * 2003-10-15 2009-06-23 International Business Machines Corporation System, method, and service for collaborative focused crawling of documents on a network
US20050086192A1 (en) * 2003-10-16 2005-04-21 Hitach, Ltd. Method and apparatus for improving the integration between a search engine and one or more file servers
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20050160107A1 (en) * 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US7483891B2 (en) * 2004-01-09 2009-01-27 Yahoo, Inc. Content presentation and management system associating base content and relevant additional content
US7392278B2 (en) * 2004-01-23 2008-06-24 Microsoft Corporation Building and using subwebs for focused search
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7343374B2 (en) * 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7260573B1 (en) 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
US7363296B1 (en) 2004-07-01 2008-04-22 Microsoft Corporation Generating a subindex with relevant attributes to improve querying
US20060036598A1 (en) * 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US7827181B2 (en) * 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US7761448B2 (en) * 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7739277B2 (en) * 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7716198B2 (en) * 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
KR101374651B1 (ko) * 2005-03-18 2014-03-17 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진
US20060282455A1 (en) * 2005-06-13 2006-12-14 It Interactive Services Inc. System and method for ranking web content
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US20070150473A1 (en) * 2005-12-22 2007-06-28 Microsoft Corporation Search By Document Type And Relevance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
TW200422878A (en) * 2002-08-05 2004-11-01 Yahoo Inc Method and apparatus for search ranking using human input and automated ranking

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Also Published As

Publication number Publication date
IL188902A (en) 2012-05-31
NO20080376L (no) 2008-03-05
RU2421802C2 (ru) 2011-06-20
US20070038622A1 (en) 2007-02-15
MX2008002173A (es) 2008-04-22
CA2618854A1 (en) 2007-02-22
JP2009505292A (ja) 2009-02-05
KR101301380B1 (ko) 2013-08-29
EP1915703A4 (en) 2011-11-16
AU2006279520A1 (en) 2007-02-22
AU2006279520B2 (en) 2011-03-17
CA2618854C (en) 2014-04-22
KR20080043305A (ko) 2008-05-16
RU2008105758A (ru) 2009-08-20
US7599917B2 (en) 2009-10-06
WO2007022252A1 (en) 2007-02-22
EP1915703A1 (en) 2008-04-30
BRPI0614274A2 (pt) 2011-03-22
ZA200801435B (en) 2009-05-27
TW200719183A (en) 2007-05-16
MY147720A (en) 2013-01-15
IL188902A0 (en) 2008-04-13
NZ565640A (en) 2010-02-26
CN101243435A (zh) 2008-08-13

Similar Documents

Publication Publication Date Title
TWI396984B (zh) 使用網路文件的偏擊距離之排序功能
US7039631B1 (en) System and method for providing search results with configurable scoring formula
JP5174931B2 (ja) ドキュメント利用統計を用いたランキング関数
RU2501078C2 (ru) Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе
AU2005201890B2 (en) Query to task mapping
US8125922B2 (en) Method and apparatus for generating a ranked index of web pages
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
US20210133200A1 (en) Ranking and presenting search engine results based on category-specific ranking models
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
JP2013510343A (ja) 検索結果のランク付けのための静的な関連性の特性としてのドキュメント長
CN101499098A (zh) 一种网页评估值的确定及运用的方法、系统
JP2012533817A (ja) 電子文書コレクションからクエリ結果を送付する方法、システム及び装置
US20090006354A1 (en) System and method for knowledge based search system
Shchekotykhin et al. xCrawl: a high-recall crawling method for Web mining
Mao et al. Supporting exploratory information seeking by epistemology-based social search
KR20090091990A (ko) 고속화 검색 모델링 시스템 및 방법
Sonawane et al. INTERACTIVE INFORMATION RETRIEVAL: AN OVERVIEW
Choi et al. Ranking web pages relevant to search keywords
US20020116359A1 (en) Method for searching and cataloging on a computer system
Meng et al. A multiplicative gradient descent search algorithm for user preference retrieval and its application to Web search
HITEESHA et al. A Two Stage Frame Work with Synchronized Parallel-Crawler
Joshi et al. Improving Algorithm for Calculation of Page Rank

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees