TW200529009A - Systems and methods for search processing using superunits - Google Patents
Systems and methods for search processing using superunits Download PDFInfo
- Publication number
- TW200529009A TW200529009A TW093130562A TW93130562A TW200529009A TW 200529009 A TW200529009 A TW 200529009A TW 093130562 A TW093130562 A TW 093130562A TW 93130562 A TW93130562 A TW 93130562A TW 200529009 A TW200529009 A TW 200529009A
- Authority
- TW
- Taiwan
- Prior art keywords
- unit
- super
- units
- signature
- seed
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
200529009 玖、發明說明: 【發明所屬之技術領域】 本發明係有關於網路與網際網路搜尋與介面系統,且 尤其關於提供增強搜尋功能之搜尋系統。 【先前技術】 隨著網際網路及透過全球資訊網(網路)可用於一使用 者之大量網頁與媒體内容的降臨,提供使用者流線型方法 以自網路過濾與獲得想要的資訊之需求已經產生。搜尋系 統與過程已經研發以符合使用者需求,以獲得想要的資 訊。此技術的範例可透過雅虎、Google與其他網站存取。 一般來說’ 一使用者輸入一查詢,且一搜尋過程傳回一或 多個關於該查詢之連結(於搜尋網路的情況中)、文件及/或 參照(在不同搜尋語言資料庫的情況中)。傳回的連結對該 使用者真正尋找的可能極為相關,或可能完全不相關。該 查詢的結果的相關性可能部份為輸入的實際查詢之一功 能’以及所使用的搜尋系統(基本收集系統)的穩固性。相 關性可能主要由一使用者決定或主要由一使用者可能尋找 者決定。 使用者輸入之查詢一般由一或多個字所做成。舉例來 說’「hawaii」係一查詢,「newyorkcity」也是,且「new york city law enforcement」也是。就這一點而論,查詢整 體上對人類大腦並沒有整體性。換句話說,人類不會自然 的根據查詢思考。它們是人工結構,部分加上查詢搜尋引 擎或查閱圖書館目錄的需求。人類也不會自然的只根據單 3 200529009 子思考。人類根據的思考是自然概念。舉例來說,「hawaii」 與「new york city」是根據字數測量長度的截然不同查詢, 但是對人類來說’它們共用一個重要的特徵:它們各由一 個概念所做成。相反的’ 一個人會將查詢「new york city law enforcement」視為基本上完全不同者,由於它是由兩 個不同的概念所做成:「new y〇rk city」與「law enforcement」〇
人類也根據概念之間的邏輯關係思考。舉例來說,r law enforcement」與「p〇lice」是相關的概念,由於警察是實 施法律的重要代理者;輸入這些概念其中之一之一使用者 可能對關於另一概念的網站有興趣,即使那些網站不含有 該使用者剛好輸入的特定字或詞。由於此思考模式,藉由 輸入一或多個自然概念的自然建立查詢,人類不只是一串 可變長度的單字’且查詢一般不包含使用者可能會察覺的 所有相關概念《同樣的,該使用者的意圖並不一定反應於 查詢的個別單字中。例如,「law enforcement」是一個概念, 而個別的單字「law」與「enf〇reement」並不個別傳達當 單字結合時的相同使用者意圖。 任何主要搜尋k供者的目前技術,如 MSN、Google 或任何其他主要搜尋引擎網站,不適用人類建立它們的相 同方法了解查詢。例如,目前的搜尋引擎一般搜尋使用者 輸入的確實字或詞,並非搜尋使用者實際在腦海中的基本 自然概念或相關概念。也許最重要的原因使避免搜尋提供 者識別一使用者的意圖與提供最佳的搜尋結果與内容。 4 200529009 如可見到的,需要改良的搜尋與介面技術,幫助提供 更符合一使用者可能有興趣的實際概念及一較佳使用者經 驗的結果。 本發明主張2003年10月9曰申請之美國臨時申請案 第6 0/5 1 0,220號,標題為「使用單元叢集用於搜尋處理之 系統與方法」之權益,其揭示在此為所有目的併入參照。 本發明係有關於2003年11月12曰申請之相同受讓人 之同時申請中的申請案第1 0/7 1 3,5 76號,標題為「用以自 搜尋查詢產生概念單元之系統與方法」,及關於2003年4 月4曰申請之相同受讓人之同時申請中的臨時申請案第 60/46 0,222號,標題為「萬用搜尋介面系統與方法」。為所 有目的,於此分別揭示上述申請案以併入參照。 【發明内容】 本發明之具體實施例提供用以處理搜尋查詢之系統與 方法,包含分析已接收查詢,以提供所見資訊之一較複雜 了解。藉由將查詢分析為單元,並定義該單元間各種關係, 如根據一起出現於查詢中之單元樣式,自一組查詢產生一 概念網路。從該概念網路,可偵測不同單元間的各種相似 性,且具有某些相同識別特性的單元可能群組化為超級單 元。對於各超級單元來說,有一對應簽章定義該群組之識 別特性。一查詢可藉由識別成分單元、決定某些或全部成 本單元的超級單元成員、及使用該資訊訂定對該查詢之一 回應加以處理。 根據本發明之一方面,提供用以自使用者搜尋查詢產 5 200529009 生超級單元之一電腦實施方法。許多先前查詢呈現為 念網路,該概念網路包含單元與定義於該單元對間 係,其中各關係具有一相關邊界加權。辨識一超級單 子;該超級單元種子具有至少一成員單元,其中各成 元係概念網路之複數個單元其中之一。為該超級單元 定義一簽章。該簽章包含一或多個簽章單元,且各簽 元於該概念網路中具有與一最小數量成員單元之一關 該超級單元種子接著藉由加入來自該概念網路之一或 新成員單元加以擴充,其中各新成員單元根據該簽章 一匹配規則。該簽章根據該已擴充超級單元種子修改 複該擴充與修改步驟,直到滿足一收斂規則為止,且 滿足該收斂規則,形成一最終超級單元與一最終簽章 著為為該最終超級單元之各成員單元儲存超級單元成 訊,且可用於回應後續查詢。舉例來說,該超級單元 資訊可為該最終超級單元之各成員單元包含一成員加 在此一成員加權基於該概念網路中該成員單元與該最 章之簽章單元間之關係。 根據本發明之另一方面,用以自使用者搜尋查詢 超級單元之一系統包含一概念網路建立器模組、一超 元種子模組、一超級單元建立器模組、及一儲存模組 概念網路建立器模組用以自一組先前查詢產生一概 路;該概念網路包含單元與定義於單元對間之關係, 各關係具有一相關邊界加權。該超級單元種子模組用 別包含至少一成員單元之一超級單元種子,其中各成 一概 之關 元種 員單 種子 章單 係0
滿足 。重 一旦 〇接 員資 成員 權, 終簽 產生 級單 〇該 念網 其中 以識 員單
6 200529009 元係該概念網路之單元其中之一。該超級 用以配置建構超級單元與以該超級單元種 各超級單元包含複數個成員單元,且各簽 元其中之一。各簽章包含_或多個簽章單 單元於該概念網路中具有與該相關超級單 成員單元之一關係。該儲存模組用以配置 存超級單兀成員資訊;該超級單元成員資 建立器模組提供。在某些具體實施例中, 查詢回應模組,耦合至該儲存模組且用以 查詢。該查詢回應模組將該目前查詢分析 單元’為一或多個成分單元自該儲存模組 成員資訊’及至少部分根據該已取出超級 疋對目别查詢之一回應。 下列詳細說明與附圖將提供本發明之 佳理解。 【實施方式】 I.簡介胃 A施方式 第1圖舉例說明根據本發明一具體實 鈿系4» 20之一資訊取出與通訊網路1〇之 電腦網路1 η由,分 1 0中客戶端系統2 0透過網際海 訊;路,如透過任何區域網路(LAN)或廣 接’輪合至任何數量的伺服器系統50!至 所描述者,根據本發明,客戶端系統20係 單元建立器模組 子開始之簽章。 章關於該超級單 元,在此各簽章 元之一最小數量 為該成員單元儲 訊由該超級單元 該系統亦包含一 配置接收一目前 為一或多個成分 取出該超級單元 單元成員資訊訂 特性與優點之較 施例包含一客戶 一大致簡介。在 5路40或其他通 域網路(WAN)連 5〇n。如將在此 用以配置與任何 7 200529009 伺服器系統5 0, i s f) 、s μ . 1主5〇Ν通訊,如以存取、取出及顯示媒體 内容與其他資訊,例如網頁。 第1圖中所示的系統中的幾個元件包含在此不需要詳 、,、田解釋的傳統已知元件。舉例來說,客戶端系統2 〇可包含 桌上3L個人電腦、工作站、膝上型、個人數位助理 (pda)、行動電話、或任何WAp啟動裝置或可直接或間接 處理至網際網路的介面之任何其他計算裝i。客戶端系統 身又執行劉覽程式,例如Microsoft的Internet Ρ 〇Γ6Γ 潘】覽器、Netscape Navigator™^ 覽器、Mozilla™ 瀏覽器、〇PeraTM瀏覽器、或一行動電話、PDA或其他無線 裝置等等之情況中之—WAp啟㈣覽器,允許客戶端系統 2〇之使用者透過網際網路40自伺服器系統5〇1至5〇n 存取、處理與檢古· 見有效之資訊與頁面。客戶端系統2〇 一般 亦包含一或多個使用去人 便用者介面裝置22,例如一鍵盤、一滑 鼠、觸控式螢幕、簦笼莖 荨荨,用以與該瀏覽器於一顯示器(如 螢幕畫面、LCD顯示哭曾幼、 rcuns ^ 顯不器專4)上提供之一圖形使用者介面 (UI)互動,結合伺服 ,、、先5〇1至50N或其他伺服器提供 之頁面、表單或其他眘
貝讯。本發明適用於使用網際網路, “的疋網路之一特定> # % A 全球内部網路。然而,應了解可使用 其他網路取代,或糾士 μ A K m 次附加於網際網路上,例如一内部 一外部網路、一虛擬私人娘^ ^ 牙人凋路(VPN)、一非Tcp/Ip 任何LAN或WAN等等。 、周路 根據一具體實施例,客戶 作人員’可使用包含電腦程 端系統20與其所有組件為操 式碼使用一中央處理單元執行 8 200529009 之一應用程式,例如一 Intel PentiumTN^理器、 Athlon™處理器等等或多處理器。用以操作與規劃客戶端 系統20如在此說明通訊、處理與顯示資料與媒體内容之電 腦程式碼最好下載與儲存於一硬碟上,但是整個程式碼或 其部分亦可能fit存於已知之任何其他揮發性或非揮發性記 憶體媒體或裝置中,例如一 R〇M或RAM,或提供於可储 存程式碼之任何媒體上,例如一光碟(CD)媒體、一數位萬 用碟(DVD)媒體、一軟碟等等。此外,該整個程式碼或其 部分可自一軟體來源傳送與下載,如透過網際網路自伺服 器系統50丨至50N其中之一至客戶端系統2〇 ,或使用任何 通訊媒體與通訊協定(如TCP/IP、HTTP、HTTPS、乙太網 路、或其他傳統媒體與通訊協定)透過任何其他網路連接 (如外部網路、VPN、LAN、或其他傳統網路)傳送。 應了解用以實施本發明各方面之電腦程式碼可為C、 C + +、HTML、XML、Java、JavaScript 等等程式碼,或任 何其他適用程式語言(如VBScript)、或可執行於客戶端系 統上或編譯以執行於客戶端系統20上之任何其他適用 程式設計語言。在某些具體實施例中,沒有程式碼下載至 客戶端系,统20,且必要的程式碼由一伺服器執行,或執行 已經存在於客戶端系統20之程式碼。 B·搜尋系統 第2圖舉例說明根據本發明一具體實 π用以通訊媒 體内容之另一資訊取出與通訊網路11〇。 X固所不,網路 110包含客戶端系統丨20、一或多個内容伺服器系統、 200529009 及一搜尋伺服器系統1 6 0。在網路1 1 0中,客戶端系統1 2 0 以可通訊之方式透過網際網路1 4 0或其他通訊網路耦合至 伺服器系統1 5 0與1 6 0。如上所討論者,客戶端系統1 2 0 與其組件用以配置透過網際網路1 4 0或其他通訊網路與伺 服器系統1 5 0與1 60及其他伺服器系統通訊。 1.客戶端系統
根據一具體實施例,執行於客戶端系統1 2 0上之.一客 戶端應用程式(呈現為模組 1 2 5)包含用以控制客戶端系統 1 20與其組件以與伺服器系統1 50與1 60通訊及處理與顯 示自此接收之資料内容之指令。客戶端應用程式1 2 5最好 自一軟體來源傳送與下載至客戶端系統 1 20,例如一遠端 伺服器系統(如伺服器系統1 5 0、伺服器系統1 60或其他遠 端伺服器系統),雖然客戶端應用程式模組1 2 5可提供於任 何軟體儲存媒體上,例如一軟碟、CD、DVD等等,如上方 所討論般。舉例來說,在一方面,客戶端應用程式模組1 2 5 可於包含各種控制項之一 HTML 包覆器中透過網際網路 1 4 0提供至客戶端系統 1 2 0,舉例來說,後入 J a v a S c r i p t 或ActiveX控制項,用以操控資料與執行各種物件、框架 與視窗中之資料。 此外,客戶端應用程式模組12 5包含用以處理資料與 媒體内容之各種軟體模組,例如用以處理搜尋查詢與搜尋 結果資料之一特定搜尋模組1 26,用以執行文字與資料框 架與作用中視窗中之資料與媒體内容之一使用者介面模組 1 2 7,如瀏覽器視窗與對話方塊,及用以處理介面及與執行 10 200529009 於客戶端120上之各種應用程式接合及通訊之一應用程式 介面模組1 2 8。最好用以配置根據本發明各方面處理介面 之應用程式介面模組128為執行於客戶端系統120上之各 種應用程式之範例包含各種電子郵件應用程式、立即訊息 (IM)應用程式、瀏覽器應用程式、文件管理應用程式及其 他。此外,介面模組1 27可包含一瀏覽器,例如用於配置 客戶端系統1 20上之一預設瀏覽器或一不同瀏覽器。在某 些具體實施例中,客戶端應用程式模組125提供一萬用搜 尋介面之特性,如描述於上方參照之暫時申請案第 60/460,222 號所述。 2·搜尋伺服器系統 根據一具體實施例,搜尋伺服器系統1 60用以配置提 供搜尋結果資料與媒體内容至客戶端系統1 20,且内容伺 服器系統1 5 0用以配置提供資料與媒體内容至客戶端系統 1 20,例如網頁,以回應搜尋伺服器系統1 60提供之搜尋結 果頁面中選擇之連結。在某些變化中,搜尋伺服器系統16〇 傳回内容,以及或取代連結及/或參照至内容。搜尋伺服器 系統1 6 0亦最好用以配置以下方描述之查詢登錄檔形式記 錄使用者查詢活動。 一具體實施例中之搜尋伺服器系統1 60參照集 頁 面、連結至頁面、代表索引頁面内容之資料等等之各種頁 面索引170。頁面索引可由各種收集技術產生,包含自動 網路爬蟲、蜘蛛等等,以及用以分類與排名一階層性結構 中網頁之手動或半自動分類演算法與介面。這些技術可實 200529009 施於產生一頁面索引17〇並使其可 16〇之搜尋伺服器系統160上或_分離么於搜尋词服器系統 頁面索引17〇中之一項目162包含二統(未顯示)中。 現該項目之一頁面之一連結(或其他編3:搜尋項目、至呈 之-内容識別器。該内容識別器可用於",識別器)及該f面 亦於不同内容t之搜尋項目群組化_似^能具有不同意 該搜尋項目「Java」可指Java電腦語兮、'°果。舉例來說, -V ^ «λ ^ 0 ’ 指印尼 J a v a 島、 或心咖啡(常常白話稱為Java)。— ^ ^ 只面之内容識別器有利 、曰I5二内容是可以用的。一頁 連結可結合於多個内容 二二 相同頁面(或其連結)可顯示於多個内容中。 益最好在使用者執行相關搜尋時由系、统自動結合 於頁面遠牡· Μ ,然而,該識別器亦可由一群一或多個索引編 ° 、>改且結合於連結。在此方式中,從許多搜尋收 集之知識可回饋至該系統中,以定義及重新定義内容以使 該已顯示搜尋結果對該要求使用者更有價值且更有用。 搜哥飼服器系統1 60用以配置提供資料,回應至從一 客戶端系統接收之各種搜尋要求,尤其是來自搜尋模組 1 26。舉例來說,搜尋伺服器系統1 60可以用以配置處理與 排名關於一給定查詢(如根據邏輯相關性之一組合,如由該 查$旬中搜尋項目中出現樣式所測量者;内容識別器;頁面 贊助者等等)之網頁之搜尋相關演算法加以規劃。根據本發 明之具體實施例,這些演算法包含用於概念分析之演算法。 例如,本發明之某些具體實施例分析搜尋查詢及/或結 果,並群組化内容中之結果,以供顯示於該使用者電腦120 12 200529009
上。舉例來說,為了回應該搜哥項目「J a v a」’搜哥祠服器 系統1 6 0之某些具體實施例傳回分成三類(或更多,如果識 別其他内容)内容或文字之搜哥結果:電腦諸言Ja v a、島山與 Java、及咖啡java。該系統可用以配置於結合於各内容提 供之連結組中顯示結果,或該系統可只顯示該内容(具有足 夠資訊以對該使用者區分内容),而沒有任何連結允許該使 用者選擇想要的内容以顯示相關連結。舉例來說,在雅虎 網路系統中,一組内容可以具有來自該搜尋索引至頁面之 一組連結、結合贊助者匹配之連結、結合目錄匹配之連結 及結合Inside Yahoo!(IY)四配之連結之各内容加以顯示。
除了具有不明確意義的字或詞,例如「Java」,本發明 之某些具體實施例用以配置為不一定不明確的搜尋項目將 結果群組化成内容。一範例係為該搜尋項目「H a w a i i」傳 回之結果。其本身之項目「Hawaii」可能並非不明確;然 而,為此一項目傳回之結果之角色可能非常廣,關於討論 或僅提到Hawaii的每個網站。為了提供更有用的結果給該 使用者,本發明之系統最好藉由併入該結果真正相關的知 識將搜尋結果歸納至内容中。舉例來說,對Hawaii來說, 該系統可以各種内容群組傳回結果,例如「Hawaii: travel」、「Hawaii: climate」、「Hawaii: geography」、「Hawaii: culture」等等。此内容識別器(「travel」、「climate」等等) 可儲存於如上所述之頁面索引項目1 62中。 應了解在此描述之搜尋系統係為舉例說明,且該變化 與修改係為可能的。該内容伺服器與搜尋伺服器系統可為 13 200529009
單一組織之部分,如一分散式伺服器系統,例如由雅虎公 司提供給使用者者,或其可為不同組織之部分。各伺服器 系統一般包含至少一伺服器與一相關資料庫系統,且可包 含多個伺服器與相關資料庫系統,且雖然顯示為單一方 塊,可為以地理上的方式分散。舉例來說,一搜尋伺服器 系統之所有伺服器可互相接近放置(如於位於單一大樓或 校園中放置之一伺服器群中),或其可於互相遠離之位置分 散(如一或多個伺服器位於城市 A中且一或多個伺服器位 於城市B中)。因此,如在此所使用者,一 「伺服器系統」 一般包含一或多個邏輯及/或實際連接區域或跨一或多個 地理位置分散之伺服器;該詞「伺服器」與「伺服器系統」 可互相交換使用。
該搜尋伺服器系統可配置具有一或多個頁面索引與演 算法,用以存取該頁面索引與提供搜尋結果給使用者,以 回應自客戶端系統接收之搜尋查詢。該搜尋伺服器系統可 產生該頁面索引本身、自另一來源(如一分離伺服器系統) 接收頁面索引、或自另一來源接收頁面索引並執行其另外 處理(如新增或更新該内容識別器)。 C·概念網路與超級單元 在一具體實施例中,搜尋伺服器系統1 6 0上之演算法 執行搜尋項目之概念分析,以提供更相關的結果給使用 者。舉例來說,對該搜尋詞「New York City」來說,最可 能的是該使用者有興趣關於紐約市(城市或區域)的網站, 而非紐約州中的任何其他城市。同樣的,對於「New York 14 200529009
City law enforcement」來說,最有可能的是該使用者有興 趣關於紐約市中之法律施行(如工作部門)。然而,大部分 傳統的搜尋引擎只會使用個別的詞「New」、「York」、
「City」、「law」及厂enforcement」搜尋,不管該詞出現在 該搜尋詞中的順序為何。其他傳統搜尋引擎可能會嘗試尋 找也出現在一索引中該搜尋詞中最長的子字串。舉例來 說,若該索引含有「New York」、「New York City」及「New York City law」但沒有「New York City law enforcement」, 該搜尋引擎會使用「New York City law」與「enforcement」 搜尋,這不一定是該使用者想要的,且不太可能會產生最 佳結果。
搜尋伺服器系統1 60最好用以於一查詢,例如「New York City law enforcement」,中偵測該概念「New York City」與「law enforcement」,且為這兩個概念傳回結果。 在某些具體實施例中,搜尋伺服器系統1 6 0使用呈現於一 查詢中的搜尋詞的順序,以識別其成分概念。舉例來說, 使用「New York City law enforcement」做為該搜尋詞,該 系統藉由散列定址法識別「New York City」與「law enforcement」為該搜尋詞中之兩個概念,並為這些概念傳 回結果。相同的結果會為「law enforcement in New York City」傳回。然而,對「city law enforcement in New York」 來說,根據該概念「law enforcement」與「New York」與 「city」或「city law enforcement」與「New York」,可能 會傳回不同結果。同樣的,「enforcement of law in New 15 200529009
York City」可能會被識別為包含該概念「New York City」、 「1 a w」與「e n f o r c e m e n t」。因此,概念的順序不像做成一 概念的詞的順序般重要。在某些具體實施例中,概念包含 於頁面索引中(如作為項目及/或内容識別項)或可實施一 個別概念索引。應注意「1 a w e n f 〇 r c e m e n t」可被視為與 「enforcement ofl aw」相同,也可視為不同,根據該内容 而定。在某些具體實施例中,一查詢中之概念最好由至包 含一已知概念(或「單元」)清單之一單元字典1 72之參照 加以彳貞測。 單元字典 172最好根據某個數量(最好是一大的數 量,如至少幾十萬)的先前查詢由一概念發掘過程加以產 生。將在下方說明範例之概念發掘包含該查詢之分析,以 產生一概念網路,且可由搜尋伺服器1 6 0或由另一伺服器 (未顯示)加以執行。
如在此所使用者,該詞「概念網路」囊括概念間關係 之任何呈現方式。舉例來說,第3圖係為一小數量概念之 一概念網路 3 0 0之一圖形呈現方式。各概念或單元(如 「New」、「York」、「New York City」等等)係該網路之一「節 點」(如節點3 02),且由呈現概念間各種關係之「邊界」(如 邊界304)連接至其他節點。一概念網路可抓取各種關係。 在第 3圖中所示之具體實施例中,該關係包含擴充 (「ext」)、結合(「assoc」)、及替代(「alt」);其他關係 亦可附加或取代在此所描述者外抓取。 在此所使用之一「擴充」係當序連兩個單元所獲得知 16 200529009 字串亦為—單元時存在之兩個單元間之-關係。舉例來 說,序連單元「new y〇rk」與「chy」所獲得之字串係「以评 york city」’其亦為一單元。該擴充關係顯示於帛3圖中為
一「Τ」結合,具有橫木連接擴充結合之兩個單元(如「neW y〇rk」與「city」),且枝幹連接至該擴充單元(如y〇rk city」〇 早
在此所使用之一 「結合」係一起出現於查詢中之兩個 疋間存在之一關係。舉例來說,帛3圖顯示該單元 與「new york city」之一結 鄰居」,而一單元之「鄰域」 之一結合,可要求共同出現 hotels」係單元r new y〇rk」 合。相關單元對在此亦稱為「 係其鄰居組。為了建立單元間 之-最小頻帛。應注意結合相關之單元不需要互相相鄰出 現於查洶巾’且序連相關單元所獲得之字串不必要為一單 疋。(若是,則存在一擴充關係。因此,一擴充關係可視為 一結合之一特殊種類。)
單元之一 「替代」係相同表示法之一不同型式 (可為一較佳、校正、或其他變化形式);舉例來說,第3 圖顯示「m〇tel」與rhotel」可替代。替代的其他範例包含 brittany spears」與「britney Spears」(不同拼法),嘎 「belgian」與「belgium」(不同說法)。在一組替代單元間, 可指定一者為「較佳」,如根據出現之頻率;舉例來說, 「britney spears」(該受歡迎歌手之名字之正確拼法)可為 錯誤拼法替代之一較佳替代’例如r b r i r t a n y s p e a r s」。在 此描述之具體實施例為不管大小寫,且僅字首大小寫不同 17 200529009 的詞(如「Belgium」與「belgium」)指的是相同單元;其 他實施例可根據大小寫區別單元,且可識別僅字首大小寫 不同的單元為替代品。
在某些具體實施例中,該概念網路中之邊界可被指派 加權(未顯示於第3圖中),即代表不同關係之相關強度之 數值。舉例來說,一第一單元與一結合單元間之邊界加權 可根據含有亦含有相關單元之第一單元之所有查詢之分 數,或根據含有亦含有另一單元之一單元之所有查詢之分 數。加權最好反應相關強度;因此,加權可以任何想要的 方式正規化。應了解第3圖僅為舉例說明,且亦可使用其 他關係以及不同單元或概念間之連接或關係之其他呈現方 式;在此使用之詞「概念網路」囊括其他呈現方式。
在本發明具體實施例中,呈現於該概念網路中之關係 亦包含「超級單元」中各種單元之成員。在此所使用之「超 級單元」該詞指的是具有一識別共同特徵之一組單元。該 已識別共同特徵(可包含多個元件)由可用於決定是否另一 單元屬於該超級單元中之超級單元之一「簽章」加以呈現。 在某些具體實施例中,該簽章亦用於根據該單元特徵與該 簽章特徵間之相似度為各成員單元決定一「成員加權」。可 定義一閥值成員加權,且該超級成員可僅包含其成員加權 超過此閥值之單元。 舉例來說,一超級單元可由城市(如 「New York City」、「San Francisco」、「Chicago」等等)做成,且其簽章 可包含常常出現於關於一城市名稱之查詢中某數量其他單 18 200529009 元(如「hotel」、「museum」、「mayor」、「jobs」等等)。可藉 由比較其對該簽名之結合評估一新單元以決定是否其為一 城市(如該超級單元之一成員)。作為另一範例,另一超級 單元可由互相替代之單元做成(如 「britney spears」、
「brittany spears」、「britney speers」等等),且其簽章可 包含與該歌手名字相關之單元(如「photos」、「mp3」、「tour」 等等)以及一「編輯距離」參數,指示拼字之相似性。.會排 除具有相似結合但有一較大編輯距離之一單元(如「barbra Streisand」或「celine dion」,而包含 Britney Spears 的其 他拼字錯誤。用以從查詢產生超級單元與簽章之特殊技巧 描述於下。如同單元之其他關係,各種單元之超級單元簽 章與超級單元成員資訊(如成員加權)可儲存於單元字典 172 中。 在某些具體實施例中,一超級單元之簽章之不同元件 可被指派不同加權。該加權最好選擇以反映特徵化該超級 單元之不同簽章元件之相關有效性。
搜尋伺服器1 6 0最好使用超級單元資訊以回應查詢, 如藉由決定一查詢中之單元屬於何超級單元,並將該查詢 之單元與這些超級單元之簽章比較,以決定該使用者最可 能的意圖是什麼。搜尋伺服器1 60可使用關於使用者可能 意圖之資訊,如以組織該搜尋結果、建議相關搜尋等等。 這些搜尋伺服器1 60之特性將在下方第III部分中描述。 II.概念分析系統 第4圖係根據本發明一具體實施例用以執行概念發掘 19 200529009
或概念分析之一系統400之一方塊圖,包含超級單元之產 生。一或多個查詢登錄檔 402(或實際查詢)由一查詢處理 引擎(亦稱為一查詢引擎)404接收,其產生一單元字典 406。查詢引擎404可為搜尋伺服器系統160的組件(第2 圖)或與搜尋伺服器系統1 6 0通訊的不同系統。在一具體實 施例中,查詢引擎404包含一概念網路(CN)建立器410、 一超級單元種子模組412、及一超級單元建立器414。CN 建立器410分析查詢登錄檔402之内容,並產生包含單元、 單元間關係(如擴充 '結合、及替代)、及該關係之邊界加 權之一概念網路40 8。超級單元種子模組4 1 2選擇性地藉 由概念網路4 0 8之分析,產生單元之初步分類至超級單元 (在此稱為「種子」)中。超級單元建立器414使用超級單 元種子模組412所提供之種子處理概念網路408,以產生 許多超級單元。該單元與其關係,包含超級單元,抓取於 一單元字典406中。
單元字典4 0 6可以任何格式實施,並儲存於任何適當 儲存媒體上,包含磁碟或磁帶,光學儲存媒體,例如光碟 (CD)等等。單元字典406之内容最好包含該單元,以及關 於各單元之額外資訊,例如關係(如擴充、結合、替代)與 CN建立器410與超級單元成員(如成員加權)由超級單元建 立器4 1 4產生決定所提供之統計資料(如邊界加權)。單元 字典406亦可包含關於該超級單元本身之資訊,例如關於 一超級單元之簽章之參數。儲存於單元字典40 6中之資訊 可由一搜尋伺服器(如第2圖之搜尋伺服器160)使用,以 20 200529009 回應後續查詢。
一查詢登錄檔 4 0 2 (或一實際查詢)可透過網際網路或 透過各種網路連接自各種來源接收,如LAN、WAN、直接 連結、分散媒體(如CD、DVD、軟碟)等等。來源之範例包 含搜尋伺服器系統1 60(第2圖)、或搜尋伺服器之一分散 式網路中之多個搜尋伺服器1 6 0、及一或多個内容伺服器 1 5 0。查詢登錄檔來源一般關於相同組織或實體,如雅.虎伺 服器,但不一定要。該查詢登錄檔(亦稱為查詢登錄)由查 詢引擎4 0 4使用統計方法加以處理,例如可用於資訊理論 或概念中者,例如共同資訊。在某些具體實施例中,使用 每日查詢登錄,雖然可使用想要的不同時間週期之登錄, 如小時、星期等等。查詢登錄一般包含由使用者傳送之實 際查詢(如文字字串),且亦可為某些或所有查詢包含額外 資訊(在此稱為「元資訊」),例如查詢使用者之地理位置、 時間戳、客戶端系統之IP位址、網路餅乾、客戶端類型(如 瀏覽器類型)等等。舉例來說,查詢登錄項目可格式化為 <query__string, meta-information〉 或 <count, query_string>,在此「count」代表出現頻率。(頻率可正 規化,且可不要,視需要而定。) A.概念網路建立器 CN建立器410處理該查詢登錄402,以產生概念網路 4 0 8。在較佳具體實施例中,CN建立器4 1 0使用一查詢中 搜尋詞之順序,以識別做成該查詢之一或多個單元。舉例 來說,一單元可為一字(如「Java」)或時常互相相鄰出現 21 200529009 的一群字(如「new york city」)。該單元對應至該概念網 路中之節點(概念)。
CN建立器4 1 0亦分析該單元,以偵測關係,例如擴 充(可根據一字或單元有時候後方跟著另一字或單元,有時 候又沒有加以偵測)、結合(可根據單元對出現之頻率加以 偵測)、及替代(可根據「編輯距離」加以偵測,即需要轉 換一單元至另一單元之印刷上變更之數量)。用以識別單元 與單元間關係(包含結合、擴充、及替代)之特殊技巧詳細 說明於上方參照之申請案第1 0/7 1 3,576號中。應了解除了 在此描述者之外,或可替代在此描述者,CN建立器 410 亦可實施其他技巧,以產生概念網路408。 概念網路 408之一呈現方式可儲存於單元字典 406 中。在某些具體實施例中,此呈現方式包含該單元以及各 單元之關係與加權組。各種資料壓縮技術可用於呈現此資 訊於單元字典406中。 B·超級單元種子模組
超級單元種子模組412產生超級單元可自此建構之一 或多個種子。如在此所使用者,一「種子」可為單一單元 或具有一或多個共同特性之一單元清單。超級單元種子模 組4 1 2可使用各種技巧以產生種子。現在將說明此技巧之 四個範例:(1)概念網路 408之分析;(2)至外部來源之參 照;(3)使用者行為之分析;及(4)該搜尋語言資料庫中文 件之分析。亦應了解單一單元可使用為一種子,且超級單 元種子模組412可僅從概念網路408選擇某數量之單元欲 22 200529009 作為種子(如根據出現頻率、鄰域大小、或某些其他規則)。 1·根據概念網路之種子(叢集與支系)
在一具體實施例中,超級單元種子模組4 1 2使用概念 網路4 0 8執行該查詢之進一步分析,以建立可使用為種子 之叢集(即相關單元群)。在此具體實施例中,叢集藉由識 別具有相似鄰域(如相關單元組)之不同單元(該叢集之「成 員」)字單元產生。該叢集可為超級單元產生使用為種子; 如將所見到者,該叢集本身亦可為超級單元。 舉例來說,考量一情況,其中使用者搜尋關於其喜愛 音樂表演者之資訊。一般來說,這些使用者會建構一查詢, 包含該表演者之名字(如「Avril Lavigne」或「Celine Dion」 或「Matchbox Twenty」),以及某些其他字反映看到的資 戒類型,例如「lyrics」、「mp3」、「guitar tabs」、「discography」 等等;這些其他字為相鄰單元,傾向於與不同表演者之名 稱一起出現。根據相似相鄰單元之出現,超級單元種子模 组4 1 2將該表演者名稱分類至一叢集中。
尤其是,第5圖係可由超級單元種子模組412執行, 、產生來自一概念網路4 0 8之叢集之一過程5 0 0之一流程 圖。在步驟502,該概念網路408提供至超級單元種子 組 4 1 2。 ' 於步驟503,選擇用以形成一叢集之一基本單元。在 某些具體實施例中,該概念網路中之每個單元可使用為一 基本單元。在其他具體實施例中,基本單元可被限制,如 限制為出現至少某最小頻率之單元。應了解可藉由使用^ 23 200529009 同基本單元重複過程500建立任何數量之叢集。
於步驟504,選擇概念網路408中之另一單元為一候 選單元,用以包含於具有該基本單元之一叢集中。一循環 程序可使用以選擇所有單元對,或選擇可限制至符合特定 規則之單元。舉例來說,在一具體實施例中,概念網路4 0 8 包含一特殊單元與各種相鄰單元之結合。在此具體實施例 中,步驟504包含比較該基本單元與一第二單元之鄰.域, 以決定重複程度;若太小,該第二單元不會變成一候選單 元。在此具體實施例中,考量的單元選擇簡化為以一基本 單元B開始、尋找一相鄰單元A、接著尋找亦為A之一鄰 居之一第三單元C。比較單元B與C之鄰域決定是否選擇 單元C為一候選單元,以包含於具有單元B之一叢集中。 此程序降低可能候選單元組至具有至少一鄰居與該基本單 元相同之那些單元。
在步驟 506,識別與該基本單元與該候選單元一起出 現之相鄰單元範例。如,若「Avril Lavigne」與「matchbox twenty」為該基本單元與候選單元,相同的相鄰單元可能 包含「lyrics」'「discography」等等。與基本與候選單元 一起出現之相鄰單元在此稱為「已匹配」單元。 在步驟 5 0 8,根據該相鄰單元計算用於該候選單元之 一叢集加權,包含該已匹配單元。此叢集加權係之該候選 單元與該基本單元間相似性之一測量;可以各種方式計 算。現在將說明用以計算叢集加權之五個適當演算法範 例;熟知該項技藝人士應了解亦可使用其他演算法。 24 200529009 範例 1 : 一演算法考量已匹配單元之數量為一相似性 測量。單元與…之叢集加權定義為: W〇/,w2)=Nc/Nt, (1) 其中Nc係已匹配單元之數量,而Ντ係單元ui的相鄰 單元總數與U2的相鄰單元總數中較大者。 可能有變化。舉例來說,Ντ可定義為兩個總數的較小 者(而非較大者),或為兩個總數的平均。
範例2 : —第二演算法考量每個已匹配單元之頻率(且 因此一相鄰單元為一單元有多重要)。單元與ι/2之叢集 加權定義為: W㈤,W2) = Fm/Ft, (2) 其中FM係透過所有已匹配單元〜,單元〜與單元… 一起出現的頻率及單元h與單元—起出現的頻率的總 合;而FT係不論已匹配與否,透過所有相鄰單元之相同頻 率總合。
範例3 :相關頻率係另一重要性測量,其中在該已匹 配單元與單元w /與—起出現的相關頻率不同之情況中 附加一懲罰(遞減加權)。在此範例中,R1 i與R2i分別定義 為相鄰單元h與單元…與W2的相關頻率。該叢集加權給 定為: (3) 其中該總合透過已匹配單元h,而Ρ為加權相關頻率 差異之一懲罰因素。該P值可相異;於一具體實施例中, 25 200529009 Ρ = 2 〇 範例 4 :以頻率的遞減順序(排名)比較相鄰單元係測 量重要性的另一方法。類似於範例 3,附加一懲罰至該已 匹配單元之排名之任何差異。各已匹配單元〜指派二排名 Qli與Q2i,分別表示其與單元W/與的排名。該叢集加 權給定為: W(ul5u2)=^][M-|Qli-Q2i|] (4)
Si 其中Μ係單元W /之相鄰單元總數與單元w 2之相鄰單 元總數較小者,而該總合透過已匹配單元h。 範例 5 :不像之前的演算法,此演算法考量一相鄰單 元之鑑別度。任何單元u的「結合性」可藉由比較該單元 與一查詢中之一或多個其他單元(可為任何單元)一起出現 的頻率(/w)與該單元單獨出現於一查詢中之頻率(八)加以定 義。在一測量中,結合性由p 〇) = /w /八給定。
此結合性測量可結合上述討論之相關頻率概念,已計 算該叢集加權。給予一「分數」α至各已匹配單元h,根 據其相關頻率;尤其是,σ (h) = l-(Rli-R2i),在此Rli與 R2i定義為上述範例3中。該叢集加權給定為: W(u15u2) = 2^fe)*l/(1-C*p(si)) ^ (5)
Si 常數C的值可根據經驗分析最佳化;在一具體實施例 中,C = 0.5。 回到第5圖,於步驟5 10,做成一決策是否包含該候 26 200529009 選單元於具有該基本單元之一叢集中。舉例來說,若其叢 集加權太低,一單元可自一叢集排除。
在某些具體實施例中,叢集可停止於單元對。在其他 具體實施例中,較大的叢集藉由選擇一不同候選單元與重 複步驟506、508、集510加以形成。在又其他具體實施例 中,二或多個單元的叢集可用於該基本單元處,以產生較 大叢集。一叢集係使用為一基本單元處,其鄰域可以各種 方式定義,如做為該成員單元之鄰域之聯集或交集,如做 為該成員單元之鄰域之聯集或交集之單元組、如做為該成 員單元之至少某最小分數(如25°/。、50%、80%)之一相鄰者 專等。不論大小’該叢集可使用為超級單元種子。
在某些具體實施例中,叢集可進一步定義至具有較強 或較近關係於該成員單元間之「支系」中。在一具體實施 例中,一「支系」係一組單元,其中每個成員單元呈現於 每個其他成員單元形成之叢集中。支系可使用於各種目 的’如區別拼字錯誤其替代字形式,或區別環繞其一叢集 形成之基本單元之不同字義。舉例來說,其基本單元為 「New York」之一叢集可包含其他城市的名稱(如 「Boston」'「Seattle」等等)之單元,且亦可包含相同程式 之替代名稱(如「NY」、「NYC」)之單元。從這些單元,可 形成包含不同城市(「New York」、「Boston」、「Seattle」) 之一支系與包含「New York City」之替代名稱(「New York」、「NY」、「NYC」)之一不同支系。 作為另一範例,一叢集具有基本單元「Yahoo」之一 27 200529009 支系可包含其他電子郵件提供者之名稱(如「a〇l」、 「Hotmail」)以及其他搜尋引擎之名稱(如「G〇〇gie」)。一 叢集具有基本單元「Google」之一支系可包含「Yah〇〇」 但無「AOL」或「Hotmail」。因此,「Yah〇〇」與「〇〇〇化」 可能是一支系之成員,而「Yah〇〇」、「A〇L」與「H〇tmaU」 可能為另一支系之成員。 第6圖係根據本發明—實施例可用於自一叢集群形成 =有成員單元W之-支Μ之一過程6⑽之—流程圖。在 =些範例巾’已形成一數量Ν之叢集,各具有一不同基本 早凡Ml心Ν)。該叢集在此表示為c(6小而為支系c…) 之-成員之-單元…由,,表示之一叢集加權, 其可被計算’如使用任何上述給定之公式。(對於並非於叢 集令之一單元u來說,加權W(w,MT被指派—為零 的值。)應了解-給訂單元苦為任何數量叢集c(〜)之一成 員,且在某些範例令,-叢集C(M可僅由該基本單元h 組成。在過程6〇",形成具有成員…支系购, 藉由基本單…為支系Q(M之第一成員開始,且為下 列叫之其他單元¥0)該支系Q之所有成員…系 CK)之元件;及(2)單元_支系Q之各成員…兒係 該叢集C(以)之一兀件。 尤其是,於步驟602,該支系Q建立有一成員6,。於 步驟604’獲得該叢# _之下一成員單元〜。於步驟 606,獲得該叢集C(~)。於步騍6〇8,決定是否支系卩之 所有成員亦為支系之成員。若否,則單元〜不加入 28 200529009
支系Q中,且過程6 0 0跳至步驟6 1 6。否貝ι|,於步驟6 1 0, 對支系Q之各成員W來說,獲得該叢集C(^)。於步驟612, 決定是否單元於步驟610獲得之各叢集C(g〃)中。步驟 6 1 0與6 1 2可藉由循環支系Q之成員^加以執行,或叢集 為多個成員可平行測試。若單元七·並非於步驟6 1 0獲 得之每個叢集C(以)中,則不加入支系Q,且過程600 會跳至步驟616。若單元心係於每個叢集C(gA)中,則.單元 心會於步驟6 1 4加入支系Q。 於步驟6 1 6,不論是否單元w加入支系Q,決定是否 有更多單元…仍然於叢集C(6,·)中。若是,則過程600會 回到步驟604,以處理下一個成員單元心。 在所有單元心皆已經處理後,於步驟6 1 8,為支系Q 之各成員〇決定一成員分數。在一具體實施例中,該分數 根據支系 Q之各其他成員單元藉由加入該叢集中單元W 之叢集加權加以計算,即,
Score(qk) = J]w(qk5qi) » (6)
i^k 在此W(以,〜)表示該叢集加權為單元W作為支系c(〜) 之一成員。亦可使用其他公式以指派一支系成員分數。在 某些具體實施例中,支系成員可以降冪或升冪分數之順序 排列。 應了解在此描述之過程為舉例說明,且可能有變化與 修改。所述為連續的步驟可平行執行,步驟之順序可能相 異,且步驟可被修改或結合。舉例來說,用以加入一單元 29 200529009
至一支系之條件可放鬆為要求,如(於步驟 60 8)該支系 Q 之成員W之至少一分數/7為叢集C(t/y)之元件,或(於步驟 6 12) 係該叢集C(以)之至少一分數/2之一元件。該分數 /7與/或/2可依需求選擇,且可為如50%、70%、90%等等; 該二分數於各種具體實施例中可能或可能不相等。過程 600可以不同基本單元幻重複,以產生任何數量的支系。 在支系產生處,支系可使用為超級單元種子而非叢集,或 支系與叢集之一組合可使用為超級單元種子。 2 .根攄外部來源之種子
在另一具體實施例中,超級單元種子模組4 1 2藉由參 照一或多個外部來源產生種子(一般顯示為第 4圖中之方 塊4 1 6)。外部來源之範例包含一編輯或編輯團隊所建立之 相關項目之一清單(如受歡迎歌手之一清單或該團隊已知 之汽車製造商之一清單);一權威網站(如維護一疾病字典 或其他清單之一醫學參考網站)等等。在此具體實施例中, 超級單元種子模組4 1 2可執行極少或甚至沒有處理於該外 部來源資料上。舉例來說,若一字清單由一編輯團隊提供, 超級單元種子模組412可僅傳送該清單至超級單元建立器 4 1 4。超級單元種子模組4 1 2亦可删減該清單,以移除並非 概念網路4 0 8中單元之任何項目。應注意此一超級單元種 子不需要為一窮盡清單,且可包含一小數量(如二、五、或 十)之單元。 3.根櫨使用者行為之種子 在一第三具體實施例中,超級單元種子模組4 1 2藉由 30 200529009
分析使用者行為產生種子。舉例來說,一搜尋伺服器(如第 2圖之伺服器 160)可藉由提供一搜尋結果頁面至客戶端 1 2 0回應至一查詢。該搜尋結果頁面包含一「點擊」清單(連 結至包含關於該查詢之内容之網頁或網站)。該點擊清單可 包含如頁面標題、顯示該相關内容之摘錄、及/或其他資 訊。該使用者檢視該清單並選擇一點擊,如藉由按下該已 顯示連結。(此動作稱為「點選」,雖然應了解不需要連結 與敲擊。)查詢登錄 402可為某些或所有查詢提供點選資 料,指示一使用者自該搜尋結果頁面跟隨何連結。超級單 元種子模組4 1 2可能於輸入不同查詢之使用者點選相同頁 面處接收此資料與識別範例。此使用者行為建議該查詢間 之一通用性,且種子模組4 1 2可將具有相似(或相同)點選 行為之查詢(或其已選擇單元)分類至一種子中。種子模組 4 1 2最好用以配置僅於偵測到該頁面之行為建議相關性之 一型態時(如當點選一特殊頁面剛好具有一特定最小頻率 時)分類該查詢(或單元)。
4.根壚文#分妍之種手 在一第四具體實施例中,種子模組4 1 2藉由該搜尋語 言資料庫中一或多個「來源」文件之分析產生種子(如於一 網路搜尋具體實施例情況中之網頁)。在此具體實施例中, 種子模組4 1 2根據相同文件中其出現推斷單元間之通用 性。舉例來說,種子模組4 1 2可將一文件分析為成分單元, 如藉由匹配文字字串至單元字典406中之項目,或至概念 網路4 0 8中之單元(節點)。在一具體實施例中,於該文件 31 200529009 中找到之所有單元收集至單一種子清單中。在另一具體實 施例中,過濾、該單元,如藉由要求出現之一最小頻率、藉 由僅若其互相接近出現時包含單元對(或較大群組)等等。 該單元之結果清單可使用為一超級單元種子。可使用任何 數量之來源文件執行文件分析,且可使用各種規則以自動 或手動選擇文件加以分析。
應了解種子模組4 1 2之前述具體實施例為舉例說明且 並非限制。種子可藉由上述或其他單元之任何一或多種, 或藉由一技巧組合加以產生。在又其他具體實施例中,各 單元(或該單元之某子組之各者,如最常見)可使用為一分 離種子。 C.超級單元建立器
不論種子如何產生,種子模組4 1 2提供該種子至超級 單元建立器414,其使用該種子及CN建立器410所產生 之概念網路4 0 8以建構超級單元。在某些具體實施例中, 超級單元由識別一簽章(即該種子傾向共同具有之單元之 一或多個關係)、搜尋匹配該簽章之概念網路中之額外單 元、加入這些單元至該超級單元、及修改該簽章以反映該 超級單元之目前内容之一循環過程加以建構。 尤其是,第7圖係根據本發明一具體實施例用以產生 可實施於超級單元建立器414中之超級單元之一過程700 之一流程圖。於步驟702,超級單元建立器414自種子模 組4 1 2接收一種子。該種子視為一初始超級單元。 於步驟 704,為該(初始)超級單元決定一簽章。該簽 32 200529009
章最好根據關於該超級單元之一或多個成員單元之一組單 元加以定義,在此並沒有簽章單元為該超級單元之一成 員。舉例來說,超級單元建立器414可放置該超級單元之 成員單元於概念網路408中,且比較各成員單元之相鄰單 元,以決定何相鄰單元對該成員單元為共同者(且本身並非 成員單元)。於一具體實施例中,簽章單元最好根據二規則 加以選擇:(1)該超級單元之一成員係該簽章單元之一鄰居 之可能性;及(2)該簽章單元之一鄰居係超級單元之一成員 之可能性。這些規則識別傾向為該超級單元之成員與非成 員間有效鑑別器之簽章單元。
做為該第一規則之一範例,一簽章單元可能要求具有 與至少5%(或10%或50%)成員單元之一特殊關係;或一簽 章單元至成員單元之某分數之關係可能要求具有一最小邊 界加權;或一簽章單元與該成員單元間之邊界加權總合可 能要求超過某閥值。在某些具體實施例中,該簽章單元關 於可能為該超級單元之成員單元與各簽章單元間之關係反 映一平均邊界加權(或邊界加權之分散)之加權界線。 做為該第二規則之範例,該簽章單元之相鄰單元之一 最小分數可能要求為該超級單元之成員;或該簽章單元與 該成員單元間之關係之邊界加權對上該簽章單元與非成員 單元間之關係之邊界加權可能要求滿足一特定關係。下方 說明簽章定義之另外範例。 於步驟 7 0 6,評估候選單元一即不在該超級單元或該 簽章中之單元一以決定是否其匹配該簽章。當其對該簽章 33 200529009
單元之關係符合預先建立之規則時,一候選單元匹配該簽 章。例如,該候選單元可給定一成員分數,反映其關係如 何接近符合該簽章。該分數可以各種方式計算,且一最小 分數可作為一「匹配」規則。在一具體實施例中,該成員 分數根據關於該候選單元之簽章單元之分數,具有5 0%(或 40°/。或90%等等)之一最小分數。在其他具體實施例中,簽 章單元關於加權界線處,該候選者可根據簽章單元之分數 加以評估,其中該候選者之關係之邊界加權於該加權界線 中。在又其他具體實施例中,上述任何演算法或用以決定 一叢集過程(第5圖)期間二單元之相似性之其他適用演算 法可適用於為一候選單元決定一成員分數,使用該超級單 元作為另一候選單元,及該簽章單元做為該超級單元之相 鄰單元。
欲評估之候選單元之選擇可被簡化,如藉由僅考慮直 接關於一或多個簽章單元之單元。如上所注意者,已經為 該超級單元或該簽章之成員之單元可能被排除於該候選清 單之外。 於步驟7 0 8,匹配該簽章之任何候選單元(如具有超過 某閥值之一成員分數者)加入該超級單元。於步驟7 1 〇,為 該更新超級單元產生一新簽章。步驟710最好使用與步驟 7 04相同之簽章產生技術,使得該新簽章與先前簽章間之 任何差異係由於超級單元中變更之成員。 於步驟 712,藉由移除不匹配該新簽章之任何成員單 元淨化該超級單元。步驟7 1 2最好使用與步驟706相同之 34 200529009 匹配規 測試與 不淨化 使得超 在 該過程 接著更 章(或讳 實施例 章中之 於 入單元 元之一 係自該 元可呈 向量。 可設定 元加以 典406 第 之一概 類似於 且不標 結合以 則。在某些具體實施例中,該種子單元於步驟7 i 2 淨化為任何其他成員單元;在其他具體實施例中, 種子單元。在又其他具體實施例中,省略步驟7 2, 級單元成員可成長但不縮水。
步驟714,決定是否該超級單元已收斂;若否,則 回到步驟706,以循環根據該簽章更新該超級單元 新該簽章之步驟。收斂發生於當該超級單元或其簽 1者皆是)之成員不於一循環期間變更時。某些具體 可為收斂實施一放鬆條件,允許於該超級單元或簽 —足夠小變化發生時找到收斂。 二騍716, 一旦該超級單元收斂,該新超級單元力 I典406。舉例來說,該超級單元可呈現為成員^ 向量及成員加權之一向量(在此各成員之成員加书 『終簽章決定之其最終成員純)。或纟,該超級為 現為為單元字典406之所有單元使用成員加權之一 在此情況中,並非該超級單元之成員 為资 〜平凡之加木
:,或-成員加權可根據該最終簽章為非成員, =算。該超級單元之最終簽章亦最好儲存於單元兰 入 一 A个恶構 罔路800之一部分。第8A_B圖之概念規則 一 3圖之概念規則,除了網路8〇〇僅顯示結合| 示關係邊界。(應了解在其他情況中,亦可考1量 外的關係)。第8A圖顯示步驟7〇4後概念網與 35 200529009 之狀態。節點(單元「艾薇兒」802與「席琳狄翁」804為 超級單元「X」(虛線方塊806)之一種子之成員。節點「mp3」 8 0 8、「歌詞」8 1 0、「照片」8 1 2、「相本」8 1 4、及「導覽」 816已識別(於步驟704)為超級單元X之簽章「Y」(虛線方 塊81 8)之成員。節點「芭芭拉史翠珊」820、「電影」822、 而「阿諾史瓦辛格」824並非超級單元X或簽章Υ之成員。
在此範例中,由於各為簽章 Υ之至少一單元之一鄰 居,超級單元產生可能藉由識別該單元「芭芭拉史翠珊」
8 2 0與Γ阿諾史瓦辛格」8 2 4為候選單元加以處理。各候選 單元接著會根據某規則為至該簽章之一匹配加以評估。舉 例來說,該候選者可能要求關於該簽章單元至少75%。該 「芭芭拉史翠珊」節點820結合簽章Υ中五個單元中的四 個,且會於步驟708加入超級單元X。該「阿諾史瓦辛格」 節點824僅結合簽章Υ中單元中的一個,且不會於步驟708 加入超級單元X。第8 Β圖顯示步驟7 0 6與7 0 8後概念網 路800之狀態,其中該「芭芭拉史翠珊」節點820加入超 級單元X’(虛線方塊806)。 接下來,簽章Υ為超級單元X’更新(步驟710)。舉例 來說,簽章Υ可定義為僅包含結合超級單元X之成員至少 5 0%之單元。該「芭芭拉史翠珊」單元820結合該「電影」 單元822,但非其他成員;因此,「電影」並不加入簽章Υ。 該「照片」單元8 1 2不結合該「芭芭拉史翠珊」成員單元 8 2 0,旦結合三個單元中之其他兩個;因此,「照片」維持 於該簽章中。 36 200529009 在此範例中,由於可能候選單元之成員分數不變更, 簽章Y不於循環期間變更,且會找到收斂。應了解此範例 被高度簡化;概念網路可被視為比第8 A - B圖中所示之部 为更大且更複雜’且許多循環可為一超級單元要求以收斂。 現在將為關於藥品之一超級單元描述根據過程7〇〇之 超級單元產生之另一範例。在此範例中,該概念網路自一 大量查詢產生(如由一主要網際網路搜尋提供者接收之一 週内有效查詢,例如雅虎)…從該概念網路,使用一特殊藥 品之廠牌名稱(如「Vicodin」)形成一支系作為一基本單 元。根據上述過程600形成之支系包含為特殊藥品名稱(如 「Oxycontin」、「Propecia」等等)之一小量(在此情況中為 九)其他單元。 此支系使用為一超級單元種子(步驟7〇2),用以產生 超級單元組X。該超級單元種子之各成員單元々指派初始 化為一常數值(如對所有心來說w(x〇 = 1}之一成員加權 W(x〇,在其他具體實施例中,該叢集加權(如使用上述任 何叢集演算法)或該支系成員分數(如從上述公式可使 用為該初始成員加權。 接著為該超級單元種子建立一簽章(步驟7〇4)。用於 該「藥品」超級單元之種類之一簽章產生過程之〆範例顯 不於第9圖中為過程9〇〇。於步驟9〇2,形成一初步簽章組 P,在此組P係超級單元組χ之各成員單元巧之鄰居之組 V(X/)之聯集。在某些具體實施例中,該組v(h)町包含少 於該成員單元h之所有鄰居;舉例來說,可要求一最小邊 37 200529009 界加權或一特殊類型之關係,或該組可被摘取以移除重複 單元(如僅可保留「mapofSpain」或「Spainmap」其中之 一)。
於步驟904,為初步簽章組P中各單元py計算一第一 分數。該第一分數為一單元最好反映超級單元組X之一 成員X/將為單元之一鄰居之可能性。在該「藥品」超級 單元範例中,為單元;之第一分數係「相關比例」(R.P)分 數,根據為該單元Py之鄰居之單元JC/之成員加權W(X,·)。 舉例來說,若L(x,, Py)定義為等於1,若單元X,係單元A 之一鄰居且等於0,否則該RP分數可計算為: mpy)= ⑺ 其中N[X]表示超級單元組X中成員單元之總數。
於步驟906,為初步簽章組P中各單元&計算一第二 分數。該第二分數為一單元最好反映潛在簽章單元A 之一相鄰單元(即相鄰組 V(;7y)之一成員)之可能性亦為超 級單元組X之一成員。在該「藥品」超級單元範例中,該 第二分數係依相關頻率比(RFR),給定為: RFR(pj) = 100 [V(^),X] Ip [ViPj)] (8) 在此p [V(;7y),X]表示相鄰組V(/7y.)之成員與組X之成 員單元間關係之頻率(或邊界加權)之總合,而P [V(Py)]表 示相鄰組V(/^·)之所有成員之累積頻率。 於步驟908,藉由結合該第一與第二分數為初步組Ρ 中各單元計算一最終分數心(py.)。在一「藥品」超級單 元之範例中,分別使用上述等式(7)與(8)中定義之與 38 200529009 RFR分數,該最終分數給定為:
Sj (pj) = RP(pj) * log RFR(pj) (9) 在其他具體實施例中,該最終分數可為該 與i?/77?分數之一不同組合。
於步驟9 10,一閥值應用至該最終分數5V (a.),且具 有高於該閥值之分數之單元巧變成超級單元X之簽章.組Y 之簽章單元h。在該「藥品」超級單元範例中,該閥值由 為各單元;^將該最大值5;· 〇7 )除以一常數值加以決定;在 此情況中,使用一常數值6,但亦可選擇其他值。對於包 含於簽章組Y中之各單元h來說,該最終分數& 〇〇 )儲存 為一成員加權W(>v)。
在產生該簽章後,為可能加入超級單元組X測試候選 單元G (過程700之步驟708),藉此建立一已修改超級單 元X。這些候選單元ck從為至少一簽章單元h (在此力係 組Y之一成員)之鄰居且還不是組X或組Y之成員之單元 選取。對於各候選單元q來說,計算一成員分數,部分根 據簽章組 Y中之候選單元q與簽章單元之相鄰單元 V(q)。為超級單元成員之成員分數之計算一般類似於上述 為簽章說明之過程 900,且其本身之分數也以相似的方式 定義。 尤其是,一分數係與上述等式(7)類似定義之一相關比 例分數。也就是說,若L(>v, 〇〇定義為等於1,若單元 係單元q之一鄰居且等於0,否則該分數為候選單元 39 200529009 G定義為: RP(ck) = (1/N[Y]) * Sum [L(yj, ck)^W(yj)] (10) 在此N[Y]係簽章組Y中單元&之總數,而W〇y)係成 員分數(如上所注意之等式(9)之結果)。該第二分數係類似 上述等式(8)定義之一相關頻率比分數。也就是說,若V(q) 表示候選單元q之所有相鄰單元,p [V(Cy〇,Y]表示相鄰組 V(c)之成員與簽章組Y中簽章單元間之關係之頻率或邊 界加權之總合,而p [ V()]表示相鄰組V(c)〇之所有成員 之累積頻率,接著: RFR(ck) = 100 *p [V(ck )5X] Ip [V(ck)] (11) 該最終分數心藉由結合該RP與RFR分數加以決 定;即:
Sj(ck)- RP(ck) * log RFR(ck) (12) 與上述等式(9)類似。一闊值應用至該最終分數 5/(q),以決定是否候選者應加入超級單元組X,。此閥 值藉由將所有候選單元G之最大值士(c〇除以一常數值; 在此情況中,使用一常數值6,但亦可選擇其他值。對於 加入為一單元X ,·之各候選者G來說,其成員加權W 〇 /)設 定等於其最終分數。此成員加權使用於過程700之簽章更 新步驟7 1 0之下一循環中。 在處理所有候選者之後,該超級單元產生過程繼續至 40 200529009 步驟7 1 0,在此簽章組Y根據已更新超級單元組X ’之成員 更新至一新組 Υ ’。此藉由使用超級單元組X ’之目前成員 重新執行過程9 0 0加以完成。接著,於步驟7 1 2,評估超 級單元組X ’之成員單元,以決定其是否應被移除;此過程 使用與步驟70 8相同之分數計算與成員規則。
於步驟7 1 4,分別藉由比較組X ’與Υ ’和組X與Υ決 定收斂或非收斂。各組對間之沒有變化或一足夠小變化導 致收斂。 第1 0圖為該「藥品」超級單元顯示結果。如上所註, 該種子係根據單一廠牌名稱(VICODIN)之一支系;簽章加 權藉由上述等式(7)、(8)、及(9)加以決定;而超級單元成 員加權藉由上述等式(10)、(11)、及(12)加以決定。第10Α 圖顯示該簽章單元與其各自成員加權,於八個循環後,而 第10Β圖顯示某些超級單元成員與其各自加權,亦於八個 循環後。這些結果從一大量實際使用者查詢產生,且該完 整超級單元包含超過一百個成員,代表者如圖所示。
對於此範例來說,該簽章組由第1 0 Α圖中所列之六個 單元組成。應注意有些單元可能吾人會預期一人會在搜尋 關於一藥品之資訊時包含在内,但在不關於一藥品之搜尋 中不包含在内。該超級單元成員,某些顯示於第10B圖中, 包含大量各種藥品之廠牌名稱。(從「Vicodin」旁,其為 該超級單元種子環繞其形成之基本單元,這些廠牌名稱列 示於第10B圖中為〈brand A>等等,由於該特定廠牌與其 順序對本發明並不相關。)亦包含藥品(如「ibuprofen」、 41 200529009 「drug」、「caffeine」)、非法藥品(如「heroin」)、食物附 加(如「aspartame」,以及數種不同維他命(未列出))、及其 他藥品相關詞(如「chemotherapy」)之一般名稱。 應了解此範例為舉例說明,變化與修改是可能的,且 超級單元成員、簽章單元、及/或分數一般會與此範例中所 提及者相異,如若一不同概念網路使用做為該輪入。此外 為簽章與超級單元成員分數描述之公式為舉例 4 β ’可依 需求相異。 1 列如 ρ ,·、一,,…η - '日甘资音时 愈早早元之分數可 不須參照該超級單元成員之成員加權# ’·)叶算。在此一 具體實施例中’在此Ν[Χ门VW)]表示超 員且亦為 表示超級举元組 "藏 為單元 單元組X之一成員為單元之— … • 鄰居之可能性 、叹早兀組X之成 員且亦為一單元力之相鄰組V(a·)之成員 取 '歎目,而N『Xl
元組X之成員總數,一第―八 J 反映超級 可計算為: 刀數心為單元ρ7. = N[X 门 V(Py)] / N[X] (13) tier ^ 早元Py之一相鄰 可計算A · 1 ^T· · 同樣的,一第二分數為單元反映該 單元為超級早元組X之一成員之可能性, (14) 做為該第二分 在此p [v(A),x]與p [v(/v)]定義於上 數為單元/V之另一範例可計算為·· 心,⑼)=N[v〇7;)n x]/n[v(a)] (15) 42 200529009 在此V(/?y)表示一單元;7y·之相鄰單元組,N[V〇7y)门X] 表示單元A之相鄰組V〇7y)中單元亦為X之成員之數目, 而N [ V〇y)]表示相鄰組V〇y)中相鄰單元之總數。 第一與第二分數可以想要之任何方式結合,以為應用 包含於簽章組 Y中之一閥值之目的決定一最終分數。或 者,一分別截止可分別應用至各分數;如若對某些閥值t !, t2來說心(巧)> ti且心(巧)> t2,則一單元巧係簽章組Y 之一成員單元J;y•。若使用分別截止於兩個分數上,兩個分 數可儲存為成員加權。 應了解視為包含於超級單元X中之候選單元q之類似 分數可以類似方式計算。舉例來說,若n(v(c^) η Y)表示 為組Υ中簽章單元之候選者q之相鄰單元數,則N[V(c〇] 表示候選單元q之相鄰單元之總數,且N[Y]表示簽章單 元Y之總數,則兩個成員分數與心可定義為: 57(^) = Ν[ν(^)Π Y]/N[V(c〇] (16) 且 5Ά,) = Ν[ν(“)门 Y]/N[Y] (17) 與上述等式(1 3 )與(1 5)類似。代表頻率之一定義亦可 使用於一或兩個分數。無論是否加入一候選者單元G可根 據該個別分數之一或兩者或其組合加以決定。 如上所述,不需要為該超級單元或簽章考慮一候選單 元之所有鄰居。該候選單元可被限制,如根據一特殊關係 43 200529009 (如僅擴充)、一最d 、息田 施例中,使用的相鄰V:權、或其他規則。在-具體實 議使用上方參照之卜:為該候選單元之「建議」,在此建 技術加以辨識 ’案第1 0/71 3,576號中之細節說明之 應了解在此說 可能有變化與修?文γ。級單元建構過程為舉例說明,且 的順序可相異,且+驟田迷為連續的步驟可平行執行,少雜 平行(或依序)建構皮修,或合併。多個超級單元< 相異超級單元% 可數篁之種子開始。除此之外, 員之不同規則自相Π之/ /或簽章中之成 構,藉此產生具有不同内容之超:單:擇::同種子: 關係類型1檨: 員與簽章單元間之其他 之簽章單元’上述的範例僅考量該成員單元正鄰居 過兩單元之^他具體實施例可根據間接關係、查詢中超 之/、同出現等等選擇簽章單元。 在某些方面,該超級單元建構過程係上 程5〇〇(第5阁、 丈叢集產生過 的是根據其二Γ伸。如在此所使用者’―「叢集」指 此一來相似性相關之_單元群(即相關單元);如 該共同鄰域:Γ被視為超級單元之一類型,該簽章根據 以抓取复他類:。應了解亦可建立其他類型的超級單元, 關後 的關係,包含一超級單元的成員間之直接 關係。舉例來說,該單元「咖eysp咖」』二二 spears { (― u m 、 Brittany (、同錯誤拼法)可能具有-共同鄰域,且與例如 巴拉史翠珊」肖「席琳狄翁」之單元包含於_叢集類 44 200529009 型超級單元中,其清楚的指其他歌手。為了抓取該正確拼 法「b r i t n e y s p e a r s」與各種不正確拼法間之特殊關係,可 建立替代之一超級單元。此類型之超級單元之簽章可包含 存在一「替代」關係,具有某數量之其他成員(或具有單一 「較佳」成員)以及(或取代)該共同鄰域。
再次參照第4圖,查詢引擎404最好用以配置執行其 查詢處理操作於一循環基礎上(如每週、每日、每小時、當 查詢接收及時等等)。在某些具體實施例中,根據一組新的 查詢登錄檔中接收之查詢更新一既有單元字典;在其他具 體實施例中,可從自該新查詢登錄檔組刮下產生一新單元 字典。在任一情況中,應了解可自然包含該概念網路與該 超級單元,以回應變更使用者行為。例如,若一新歌手變 得受歡迎,他或她可能變成第8圖中之超級單元X之部 分,由於使用者可能為該新歌手的名稱結合超級單元X之 簽章單元開始搜尋。
在較佳具體實施例中,該超級單元傾向反映真實世界 的概念關係(如屬於一類別之單元,例如歌手或城市),即 使查詢處理引擎404不需要提供有關於單元或查詢之真實 世界知識或語義資訊。舉例來說,一超級單元可包含「New York City」、「San Francisco」、及「Chicago」,而該簽章為 該超級單元可包含「hotel」、「restaurant」、及「nighi club」。 此一超級單元可反映紐約市、舊金山、及芝加哥皆為旅遊 目的地(或城市),但查詢引擎404(第4圖)不要求處理任何 先前概念「目的地」(或「城市」)的知識。此概念知識可 45 200529009 自動從分析查詢樣式成長。應了解本發明詳述標示超級單 元具有執行對人類有語義意義的詞,很方便促進了解本發 明。事實上,查詢引擎404或單元字典406使用的任何超 級單元標示架構不需要具有此屬性;例如,一超級單元標 示可僅為一數字、為該超級單元至一加權向量或簽章之一 參照等等。
在某些具體實施例中,超級單元可進一步藉由指派有 語義的有意義標籤至某些或所有超級單元加以增強。舉例 來說,與一標籤(如「artist」)結合一或多個關鍵字(如 「lyrics」、「mp3」等等)之一分類關鍵字資料庫可提供以 供指派標籤使用。一超級單元之簽章單元可比較該關鍵 字,以決定是否應用該標籤。人賴索引編輯可參與此過程, 如藉由建立該關鍵字資料庫及/或驗證指派標籤至超級單 元。
一單元可能屬於多個超級單元;舉例來說,一模糊的 單元,例如「Java」,可能結束於一「computer programming」 超級單元、一「food and drink」超級單元、及一「travel」 或「places」超級單元。在某些具體實施例中,亦可能有 不屬於任何超級單元之單元。欲建立之超級單元數量可提 前建立(不論為一特殊數目或一數目範圍),且可為如100、 500、1500、或 5000。在其他具體實施例中,不預先決定 該超級單元之數目。 應了解在此描述之系統與過程為舉例說明,且可能有 變化與修改。描述為連續的過程步驟可平行執行,步驟可 46 200529009
合併,且步驟的順序可修改。舉例來說,視為超級單元中 成員之候選者之單元組可以各種方式限制(如藉由限制候 選者為出現相當頻繁的單元),且該簽章單元組亦可被限 制。在一具體實施例中,簽章單元可包含或限制於結合該 超級單元至少一成員之「建議」。在此内容中,建議為已識 別為輸入一特定查詢(或單元)之一使用者可能有興趣的可 能事項之單元,且根據單元與頻率資訊之分析。用以產生 建議之技術詳細描述於上方參照之美國申請案第 1 0/7 1 3,576 號中。 III.查詢回應中超級單元之應用
超級單元資訊可以各種方式使用,以增強對一查詢之 一回應。第1 1圖顯示可由第2圖之系統1 1 0使用以回應至 一查詢之一方法。客戶端1 20傳送一查詢至搜尋伺服器系 統1 60。搜尋伺服器系統1 60傳送該查詢與/或其成分單元 至存取單元字典4 0 6之一概念伺服器1 8 0。概念伺服器1 8 0 傳回關於該查詢之概念資料,例如自該查詢識別之一或多 個單元以及為該各種單元之統計與超級單元資訊。此資訊 可藉由散列該查詢取出,以識別其中包含之單元,並存取 單元字典406以為各已識別單元取出項目。在此具體實施 例中,單元字典406包含關於查詢處理期間有效之單元之 任何資訊,且可包含完整或部分之一概念網路之一呈現方 式。在一具體實施例中,該已傳回資訊包含關於與該查詢 或其個別單元相關之超級單元之資訊。 搜尋伺服器系統1 60最好使用自概念伺服器1 80接收 47 200529009 之概念資料以回應該查詢。搜尋伺服器系統丨6 〇傳回之結 果最好包含回應該使用者查詢之結果,以及其他相關資 訊,例如根據抓取於單元中與其關係包括超級單元了解使 用者需求,關於該使用者接下來可能想要揭示的暗示與提 示。現在將說明超級單元資訊可使用以回應一查詢之方法 之數個範例;應了解這些範例為舉例說明而非限制。 A ·解決摄^糊性
在某些具體實施例中,搜尋伺服器系統160可使用一 多單元查詢之成分單元以解決該成分單元其中之一中之模 糊性。舉例來說,假設一查詢包含可能使用於超過一内容 中之一模糊詞,例如「Java」。此一詞可能屬於多個超級單 元 如 「food and drink」超級单元、一「c〇inputer」超 級單兀、及一「location」超級單元。在將該查詢分析為單 儿’並偵測該單元「Java」中之模糊性後,搜尋伺服器1 60 可比較查詢之其他成分單元與各超級單元之簽章。因此, 备該查詢亦包含一詞,例如「shop」或「coffee」,搜尋伺 服器系統160可推斷該使用者最可能有興趣的是「f00d and drink」超級單元,而例如「pr〇grarn」或「script」的詞可 能指示該「computer」超級單元等等。結果(如連結至回應 查詢之頁面)可呈現於群組中,對應至不同超級單元,最有 可能的超級單元最先出現。在另一具體實施例中,來自不 同超級單元(或内容)之結果可排列於該結果頁之不同「標 籤」,允許使用者藉由按下該想要之標籤選擇一内容。在預 設的情況下可顯示最有可能的内容。 48 200529009 超級單元亦可使用以其他方法解決模糊桃 ,#丄μ w f生,如精由檢 查該使用者可能在相同區段中所作之其他杳 “里珣。舉例來 說,該單元「jaguar」可能指一動物或指一鱼 ^ ^ + 半。若該使用 者於「jaguar」前之一查詢關於汽車但非動物f 如丨 kelly blue book」或「porsche」),可推斷該使用者比較可能有興趣 汽車而非動物。此一推斷可藉由檢查相同使用 巾考輸入之不
同查詢中之單元之超,級單元成員自動化;具有兩個單元為 成員之一超級單元可識別為比另一個不具有兩個單元為成 員之一超級單元要有可能。可考量任何數量的該使用者先 前查詢,如給予最大加權之最近查詢。
搜尋伺服器系統1 60可使用各種技巧以決定如何分類 結果。舉例來說,產生該頁面索引(如第2圖之頁面索引 170)之搜尋相關演算法可用以使用來自單元字典406之目 前超級單元資料,以指派該索引中各頁面或網站(或其他内 容單元)至一或多個超級單元;該超級單元指派可儲存於該 索引(如作為一内容識別碼 1 7 2)中,以及關於特殊詞或單 元出現之其他資料。 B.建議相關掬霹 在某些具體實施例中,搜尋伺服器系統1 60可根據超 級單元資訊建議相關搜尋。例如,假設一查詢包含「New York City」且此單元已知屬於一「destination」超級單元。 搜尋伺服器系統1 60可能使用關於該超級單元之簽章以建 議額外搜尋,例如搜尋「restaurant」或「hotel」結合「New York City」。此建議可根據該超級單元之簽章單元。 49 200529009 C·建議「侧向!押尋
在某些具體實施例中,搜尋伺服器系統1 6 0亦可使用 超級單元資訊以建議類似或相關網站之「側向」搜尋。舉 例來說,假設一使用者有興趣於W日自A點飛至B點。 該使用者可能直接存取一航空公司網站,如一美國航空網 站,且執行該網站中之一搜尋,或該使用者可能要求 「airlines」或「air travel」或「American airlines」等等 之一搜尋,自顯示之搜尋結果中從連結中存取一特定網站 (如該美國航空網站),且於該存取網站中要求關於W日自 A點至B點之航班之資訊。該使用者現在從美國航空的網 站檢視關於該要求資訊之資訊,也許包含關於各種有效航 班之價格資訊。一「側向」搜尋讓該使用者利用相同資訊 搜尋另一網站,如A與B點及W日,以獲得類似結果, 而不需要手動存取新網站並重新輸入想要的資訊。
在本發明一具體實施例中,搜尋伺服器系統1 60可能 提示該使用者於建議「相關」網站上執行側向搜尋,使用 超級單元資訊以識別相關網站。例如,該單元「American airlines」可能屬於一「airline」或「transportation」超級 單元;搜尋伺服器系統1 6 0可識別該超級單元中其他單元 (如「United Airlines」)並建議執行關於該單元之一網站上 之搜尋。若該使用者選擇該側向搜尋,該系統處理該已識 別網站之介面,以提供想要的搜尋結果,舉例來說,列出 於W日自A點至B點之航班之價格資訊之已識別網站之 一頁面。在該使用者已經直接存取一網站且輸入搜尋資訊 50 200529009 至關於該已存取網站之一表單中之情況中,該搜尋模組 1 2 6儲存此輸入資訊,並使用此資訊於當要求一側向搜尋 需要用以填入相關網站中之表單處。當然,該使用者可能 必須輸入額外資訊於一新網站中,根據該已選擇網站之需 求而定。依此方式,該使用者提供有為類似資訊跨不同網 站流線型類似搜尋之能力。 D.解決拼字錯誤
在某些具體實施例中,超級單元與簽章可使用以提供 查詢處理期間之增強拼字檢查。舉例來說,若一使用者輸 入一查詢包含「basset」,傳統搜尋伺服器系統可能辨認 「bassett」或「basket」為可能的替代品,且可能建議一 或兩者給使用者。具有對超級單元資料存取之搜尋伺服器 1 6 0可產生概念網路,以決定何替代拼字是該使用者最有 可能想要的。
舉例來說,假設包含「basset」之先前查詢具有一簽 章靠近「bassett」而非「basket」(士口由於「basset」與「hound」 一起出現比與「weaving」一起出現要頻繁得多)。在此情 況中,該搜尋伺服器可能建議「basset」作為最佳替代形 式。在另一實施方式中,完整查詢可能針對關於含有 「basket」之一超級單元之個別簽章比較含有「bassett」 之另一超級單元,根據何簽章較靠近匹配該查詢做成一建 議。因此,搜尋伺服器160可以一建議搜尋「bassett hound」 回應至該查詢「basset hound」,且以一建議搜尋「basket weaving j 回應至查詢「basset weaving」。 51 200529009 在另外具體實施例中,招铋留 Rtb j中超、,及平元資訊可使用以建構一 階層性分類單元。在一杳 . 、實例中,執行多階段的超級 早兀建構。在第一階段,可使用 ,, 了便相當嚴格的成員規則,藉 此建立呈現低層次階層之輕級罩 妨… 「 !之超,,及早几。例如,-「cities」超 級早疋、一「states」超級單元、 一 τ 夂一1 nations」超級單 凡可於此階段建構。在一邾德 一,@ 稍後^ #又中,可再次建構超級單 几(選擇性具有較不嚴袼賴n
裕規則)從仞始超級單元組開始, 藉此建立一較高階超級 一 早兀(幻士 L含城市 '洲、及國家之 places」超級早%)。或者,—循環超級單元建構過程 如第7圖之過程7〇〇)中之不同階段可使用以辨識階層之 不同階層。
根據超級單元之一階層性分類可使用以提供目錄型搜 尋功能,類似於目前由雅虎及其他搜尋服務提供者所提供 者。傳統目錄型搜尋系統單獨依賴人類編輯團隊建構該目 錄;自超級單元建構一目錄使該過程自動化,且可導致較 快速調適變更使用者興趣與行為之一目錄。 £^&^_他鹿用 超級單元亦可使用於其他方式。例如,在某些具體實施例 中’一網站操作人員或其他實體可「贊助」一超級單元, 使得顯著的顯示由該贄助者提供之一廣告(或只是至該贊 助者網站之一連結),無論一查詢何時包含關於該贄助者超 級單7〇之一單元。在其他具體實施例中,一查詢中之詞可 比較超級單元名稱,且可建議超級單元之其他成員之相關 52 200529009 搜尋。在又其他具體實施例中,若一查詢詞符合一超級單 元名稱,關於其他查詢詞之頁面可能根據是否該内容對應 至該超級單元而加以排名。 IV.另外具體f施例
本發明已針對特定具體實施例加以描述,熟知該項技 術人士應了解可能有許多修改。例如,超級單元之數目與 特性可能不同,且一單元可能屬於超過一超級單元。.根據 實施方式,可能或可能不需要每個單元屬於至少一超級單 元。超級單元與簽章可動態定義,且概念發掘與/或概念分 析可時時執行(如每日或每週)以更新單元、超級單元、及/ 或簽章資料,以回應變更使用者之行為。如上所提及的, 可使用各種用以識別與結合單元以建立超級單元之技術。 超級單元可傾向反映概念之真實世界關係,沒有需要所有 的超級單元(或任何超級單元)做到任何特定程度。除此之 外,該超級單元不需要反映從真實世界知識建立之一階層 性目錄結構或其他分類,例如雅虎目錄。在此描述之自動 化系統與方法可修改或增加所有或部分結果單元字典、超 級單元、簽章、特殊索引頁面或網站之超級單元指派等等 之人類檢閱。 在此描述之具體實施例可參照網站、連結、及其他特 定範例之術語,在此全球資訊網(或其子組)做為該搜尋語 言資料庫。應了解在此說明之系統與過程可適用於使用一 不同搜尋語言資料庫(例如一電子資料庫或文件儲存),且 結果可包含内容以及可找到内容之位置之連結或參照。 53 200529009 因此,雖然本發明已針對特定具體實施例加以描述, 應了解本發明意欲涵蓋下列申請專利範圍之範疇中之所有 修改與對等變化。 【圖式簡單說明】 第1圖係根據本發明一具體實施例之一資訊取出與通 訊系統之一簡化高階方塊圖。
第2圖係根據本發明一具體實施例用以通訊媒體内容 之一資訊取出與通訊網路之一簡化方塊圖。 第3圖係根據本發明一具體實施例之一概念網路之一 圖形呈現方式。 第4圖係根據本發明一具體實施例之一查詢處理引擎 之一簡化方塊圖。 第5圖係根據本發明一具體實施例用以產生可使用為 超級單元種子之叢集之一過程之一流程圖。 第6圖係根據本發明一具體實施例用以產生可使用為 超級單元種子之支系之一過程之一流程圖。
第7圖係根據本發明一具體實施例用以自種子建構超 級單元之一過程之一流程圖。 第8A-B圖係第7圖中舉例說明之超級單元產生過程 中不同階段之一概念網路之圖形呈現方式。 第9圖係根據本發明一具體實施例用以為一超級單元 建構一簽章組之一過程之一流程圖。 第1 0圖顯示第7圖之超級單元產生過程之一範例結 果,其中第10A圖顯示簽章單元而第10B圖顯示代表性超 54 200529009 級單元成員。 第11圖係根據4 與相關處理智慧之一 I 之一查詢處理引擎。 【主要元件符號說明】 10資訊取出與通訊網路 20客戶端 22使用者介面裝置 40網際網路 5〇i伺服器 50N伺服器 110資訊取出與通訊網路 120客戶端 125模組 126特定搜尋模組 127使用者介面模組 128應用程式介面模組 140網際網路 15〇i内容伺服器 150N内容伺服器 160搜尋伺服器 162項目 170頁面索引 172單元字典 發明一具體實施例包含一單元字典 統之一簡化方塊圖,包含某些方面 180概念伺服器 220客戶端2 302節點 304邊界 400系統 402查詢登錄 404查詢處理引擎 408概念網路 410概念網路建立器 412超級單元種子模組 414超級單元建立器 416外部種子來源 500過程 502提供概念網路至超級單元種子 模組 503為叢集選擇基本單元 504選擇欲加至叢集之候選單元 506辨識以基本&候選單元出現之某 相鄰單元之範例
55 200529009 508根據相鄰/已匹配單元計算叢集712移除不匹配新簽章之成員單元 加權 510決定是否包含候選單元於具有 基本單元之叢集中 600過程 602將單元bi放入支系Q中 604獲得叢集C(bi)之下一個成員單 元uj 606獲得叢集C(uj) 608Q的所有成員都在C(uj)中嗎? 610對於支系Q的各成員單元qk來 說,獲得叢集C(qk) 612uj在所有C(qk)中嗎? 614加入單元Uj至支系q中 616更多uj在C(bi)中嗎? 618為各成員q計算成員分數 700過程 702接收超級單元種子 704為種子決定簽章 706為匹配至簽章評估候選單元 708加入匹配的候選單元至超級單 元 710根據已擴充超級單元成員修改 簽章 714收斂? 800概念網路 802艾薇兒 804席琳狄翁 806簽名X 806’簽章X’ 806 mp3 810歌詞 812照片 814相薄 816導覽
818簽名Y 820芭芭拉史翠珊 822電影 824阿諾史瓦辛格 900過程 902建立初步組P(為超級單元X之所有 成員之相鄰組聯集) 904為組P中之各單元計算相關比例 (RP)分數 906為組P中之各單元計算相關頻率 比(RFR)分數 908從RP與RFR分數計算最終分數
56 200529009 910應用閥值截止至最終分數,以決 定組P之何成員包含於簽章組Y 中
57
Claims (1)
- 200529009 拾、申請專利範圍: 1 · 一種用以從一概念網路產生超級單元之電腦實施方 法,該概念網路包含複數單元與定義於該複數單元對間 之複數關係,其中各關係具有一相關邊界加權,該方法 包含之動作有: 識別包含至少一成員單元之一超級單元種子,其中 各成員單元係該概念網路之複數單元其中之一;為該超級單元種子定義一簽章,該簽章包含一或多 個簽章單元,其中各簽章單元與至少一最小數量之成員 單元於該概念網路中具有一關係; 藉由加入來自該概念網路之一或多新成員單元擴 充該超級單元種子,其中各新成員單元根據該簽章滿足 一匹配規則; 根據該已擴充超級單元種子修改該簽章;重複擴充與修改之動作,直到滿足一收斂規則為 止,其中一旦滿足該收斂規則,形成一最終超級單元與 一最終簽章;及 為該最終超級單元之各成員單元儲存超級單元成 員資訊。 2 ·如申請專利範圍第1項所述之方法,其中上述概念網路 係自一組先前之搜尋查詢產生。 3·如申請專利範圍第1項所述之方法,其中上述儲存該超 級單元成員資訊之動作包含之動作有: 58 200529009 為該最終超級單元之各成員單元計算一成員加 權,其中上述成員加權係基於該成員單元與該最終簽章 之簽章單元間之概念網路中之關係, 其中上述已儲存超級單元成員資訊包含該成員加 權。 4.如申請專利範圍第1項所述之方法,其另包含自該先前 查詢產生該概念網路之動作。5 ·如申請專利範圍第1項所述之方法,其另包含之動作 有: 於修改該簽章之動作後與該重複動作前,藉由移除 根據該已修改簽章不符合該匹配規則之一成員單元淨 化該超級單元, 其中上述淨化動作於重複該修改步驟之後重複。6. 如申請專利範圍第1項所述之方法,其中由於該重複動 作,若該超級單元種子之成員數目之變更不超過該等單 元數目的最大值,則滿足上述收斂規則。 7. 如申請專利範圍第1項所述之方法,其中由於該重複動 作,若該簽章之成員數目之變更不超過該等單元數目的 最大值,則滿足上述收斂規則。 8. 如申請專利範圍第1項所述之方法,其中上述識別該超 級單元種子之動作包含形成二或多單元之一叢集做為 該超級單元種子之動作,其中在上述叢集中之各單元具 有與該叢集之一基本單元相同之至少一相鄰單元。 59 200529009 9·如申請專利範圍第8項所述之方法,其中上述形成該叢 集之動作包含的動作有: 自該概念網路選擇一基本單元與一候選單元; 識別該基本單元之複數相鄰單元,其中各相鄰單元 於該概念網路中具有對該基本單元之一關係;識別該相鄰單元至少其中之一為一已匹配單元,其 中各已匹配單元於該概念網路中具有對該候選單元之 一關係; 根據包含該至少一已匹配單元之複數相鄰單元,為 該候選單元計算一叢集加權;及 根據該叢集加權,決定是否包含該候選單元於具有 該基本單元之一叢集中。 1 0 ·如申請專利範圍第1項所述之方法,其中上述識別該超 級單元種子之動作包含形成二或多密切相關單元之一 支系。1 1 ·如申請專利範圍第1項所述之方法,其中上述識別該超 級單元種子之動作包含自一外部來源接收一單元清單 之動作,該單元清單可用作一超級單元種子。 1 2.如申請專利範圍第1 1項所述之方法,其中上述外部來 源包含一網頁。 1 3 .如申請專利範圍第1 1項所述之方法,其中上述識別該 超級單元種子之動作另包含刪減該單元清單之動作,以 移除不在該概念網路中之一單元。 60 200529009 1 4.如申請專利範圍第1項所述之方法,其中上述識別該超 級單元種子之動作包含之動作有: 接收關於該先前查詢之使用者行為資料;及 偵測關於含有不同單元之先前查詢之使用者行為 資料中之相似性。 1 5 .如申請專利範圍第1 4項所述之方法,其中上述使用者 行為資料包含藉由該先前查詢之資訊點選。1 6.如申請專利範圍第1項所述之方法,其中上述辨識該超 級單元種子之動作包含之動作有: 偵測一來源文件中該概念網路之單元之出現;及 根據該已偵測出現產生一超級單元種子。 1 7.如申請專利範圍第1項所述之方法,其中上述概念網路 之單元間之關係包含一結合關係、一擴充關係、及一替 代關係之一或多者。1 8 ·如申請專利範圍第1項所述之方法,其中上述定義該簽 章之動作包含之動作有: 識別該概念網路中複數單元具有與該相關超級單 元種子之至少一最小數量成員單元之一特定關係者為 該簽章單元;及 建立一閥值數量, 其中上述擴充該超級單元種子之步驟包含: 自該概念網路選擇一候選單元;及 於該候選單元具有與至少該閥值數量之簽章單元 61 200529009 之特定關係之事件中,加入該候選單元至該超級單元種 子。 1 9.如申請專利範圍第1 8項所述之方法,其中藉由參照一 預定分數,相對於一總數簽章單元,建立上述閥值數量。 20.如申請專利範圍第1項所述之方法,其中上述定義該簽 章包含之動作有:將在該概念網路中具有與該相關超級單元種子之 至少一最小數量成員單元之一特定關係之複數單元識 別為該簽章單元; 為各簽章單元建立一邊界加權範圍;及 建立一閥值數量, 其中上述擴充該超級單元種子之步驟包含: 自該概念網路選取一候選單元;決定等於一數量簽章單元之一第一數量,其中該候 選單元與其具有該特定關係,且具有該簽章單元於該邊 界加權範圍中之一邊界加權;及 於該第一數量等於或大於該閥值數量之事件中,加 入該候選單元至該超級單元種子。 2 1 ·如申請專利範圍第1項所述之方法,於該儲存動作之後 另包含之動作有: 接收一目前查詢; 將該目前查詢分析為一或多成分單元; 為該一或多成分單元取出該已儲存超級單元成員 62 200529009 資訊;及 至少部分根據該已取出超級單元成員資訊,訂定對 該目前查詢之一回應。 2 2.如申請專利範圍第2 1項所述之方法,其中上述訂定該 回應之動作包含使用該超級單元成員資訊,建議一相關 搜尋查詢之動作。 23 .如申請專利範圍第22項所述之方法,其中上述相關搜 尋查詢包含一第一單元,其係該超級單元之成員單元其 中之一,其中上述第一單元並非該目前查詢之一成分單 元。 24.如申請專利範圍第22項所述之方法,其中上述相關搜 尋查詢包含一第一單元,其係該超級單元之簽章單元其 中之一,其中上述第一單元並非該目前查詢之一成分單 元。 2 5 .如申請專利範圍第2 1項所述之方法,其中上述訂定該 回應之動作包含使用該超級單元成員資訊,為一旁支搜 尋建議一網站之動作。 2 6.如申請專利範圍第2 1項所述之方法,其中上述成分單 元其中之一係多於一超級單元之一成員,且其中上述訂 定該回應之動作包含:根據該成分單元其中之一附屬之 超級單元,使用該超級單元成員資訊,群組化回應資料 之動作。 27.如申請專利範圍第2 1項所述之方法,其中上述訂定該 63 200529009 回應之動作包含:根據對該組成單元之另一者與一或多 超級單元之簽章單元之比較,使用該超級單元資訊解決 該成分單元之一第一成分單元之一模糊性之動作,其中 該第一成分單元係一或多超級單元之一成員。 28·如申請專利範圍第21項所述之方法,其中上述訂定該 回應之動作包含:使用該超級單元資訊,以選擇欲顯示 之贊助者内容。2 9 · —種用以自使用者搜尋查詢產生超級單元之系統,該系 統包含: 一概念網路建立器模組,其經調整以自複數先前查 詢產生一概念網路,該概念網路’包含複數單元與複數定 義於該複數單元對間之複數關係,其中各關係具有一相 關邊界加權;一超級單元種子模組,其經調整以識別包含至少一 成員單元之一超級單元種子,其中各成員單元係該概念 網路之複數單元其中之一; 一超級單元建立器模組,其經調整以建構超級單元 及以該超級單元種子開始之簽章,其中各超級單元包含 複數成員單元,且其中各簽章關聯於該超級單元其中之 一,其中各簽章包含一或多簽章單元,其中各簽章單元 在該概念網路中具有與該相關超級單元之至少一最小 數量成員單元之一關係;及 一儲存模組,其經調整以儲存該成員單元之超級單 64 200529009 元成員資訊,其中上述超級單元成員資訊係由該超級單 元建立器模組提供。3 0 ·如申請專利範圍第2 9項所述之系統,其中上述超級單 元建立器模組另經調整以為各超級單元種子定義一簽 章,以藉由加入來自該概念網路之一或多新成員單元擴 充該超級單元種子,其中各新成員單元根據該簽章滿足 一匹配規則,以根據該已擴充超級單元種子修改該簽 章,且重複該擴充與修改步驟直到滿足一收斂規則為 止,其中一旦滿足該收斂規則,形成一最終超級單元與 一最終簽章。 3 1 ·如申請專利範圍第3 0項所述之系統,其中上述超級單 元建立器模組另經調整以為該最終超級單元之各成員 單元計算一成員加權,其中上述成員加權係基於該概念 網路中該成員單元與該最終簽章之簽章單元間之關 係,且儲存該成員加權於該儲存模組中。3 2.如申請專利範圍第3 0項所述之系統,其中於重複期 間,若該超級單元種子之成員變更少於該等單元數目的 最大值,則滿足上述收斂規則。 3 3 .如申請專利範圍第3 0項所述之系統,其中於重複期 間,若該簽章之成員變更少於該等單元數目的最大值, 則滿足上述收斂規則。 3 4.如申請專利範圍第29項所述之系統,其中上述超級單 元種子模組另經調整以將二或多單元之一叢集識別為 65 200529009 該超級單元種子,其中該叢集中之各單元具有相同之至 少一相鄰單元。3 5.如申請專利範圍第3 4項所述之系統,其中上述超級單 元種子模組另經調整以自該概念網路選擇至少二候選 單元,以識別該候選單元之複數相鄰單元,其中各相鄰 單元於該概念網路中具有對一或多候選單元之一關 係,以根據該複數相鄰單元為該候選單元計算一叢集加 權,且根據該叢集加權決定是否自該候選單元形成一叢 集。 3 6 ·如申請專利範圍第3 4項所述之系統,其中上述超級單 元種子模組另經調整以自一外部來源接收一單元清 單,該單元清單係可用作一超級單元種子。3 7.如申請專利範圍第3 4項所述之系統,其中上述超級單 元種子模組另經調整以接收關於該先前查詢之使用者 行為資料,且偵測關於含有不同單元之先前查詢之使用 者行為資料之相似性。 3 8.如申請專利範圍第3 4項所述之系統,其中上述超級單 元種子模組另經調整以偵測一來源文件中之概念網路 之單元之出現,且根據該已偵測出現產生一超級單元種 子0 3 9.如申請專利範圍第2 9項所述之系統,其另包含: 一查詢回應模組,其耦合至該儲存模組,且經調整 以接收一目前查詢,以將該目前查詢分析為一或多成分 66 200529009 單元,以自該儲存模組取出一或多該成分單元之該超級 單元成員資訊,且以至少部分根據該已取出超級單元成 員資訊訂定對該目前查詢之一回應。 4 0 · —種包含以程式碼編碼之一電腦可讀取媒體之電腦程 式產品1該程式碼包含:用以識別一超級單元種子之程式碼,該超級單元種 子包含至少一成員單元,其中各成員單元係一概念網路 之複數單元其中之一,該概念網路包含複數單元與該複 數單元對間定義之複數關係,其中各關係具有一相關邊 界加權; 用以為該超級單元種子定義一簽章之程式碼,該簽 章包含一或多簽章單元,其中各簽章單元於該概念網路 中具有與至少一最小數量成員單元之一關係;用以擴充該超級單元種子之程式碼,其係藉由加入 來自該概念網路之一或多新成員單元,其中各新成員單 元根據該簽章滿足一匹配規則; 用以修改該簽章之程式碼,其係根據該已擴充超級 單元種子; 用以重複該擴充與修改步驟之程式碼,其係進行到 滿足一收斂規則為止,其中一旦滿足該收斂規則,則形 成一最終超級單元與一最終簽章;及 用以儲存超級單元成員資訊之程式碼,其係供該最 終超級單元之各成員單元之用。 67 200529009 4 1 .如申請專利範圍第4 0項所述之電腦程式產品,其中上 述程式碼另包含: 用以接收一目前查詢之程式碼; 用以將該目前查詢分析為一或多成分單元中之程 式碼; 用以為一或多成分單元取出該已儲存超級單元成 員資訊之程式碼;及用以至少部分根據該已取出超級單元成員資訊,訂 定對該目前查詢之一回應之程式碼。 42 · —種用以形成來自一概念網路之一叢集的電腦可實施 方法,該概念網路包含複數單元與該單元間定義之複數 關係,其中各關係具有一相關邊界加權,該方法包含之 動作有: 自該概念網路選擇一基本單元與一候選單元;識別該基本單元之複數相鄰單元,其中各相鄰單元 於該概念網路中具有對該基本單元之一關係; 將至少一相鄰單元識別為一已匹配單元,其中上述 已匹配單元於該概念網路中具有對該候選單元之一關 係; 根據包含該至少一已匹配單元之複數相鄰單元為 該候選單元計算一叢集加權;及 根據該叢集加權,決定是否包含該候選單元於具有 該基本單元之一叢集中。 68 200529009 43 .如申請專利範圍第42項所述之方法,其另包含之動作 有: 選擇一第二候選單元;及 使用該第二候選單元重複將至少一相鄰單元識別 為一已匹配單元之動作,計算一叢集加權,及決定是否 包含該第二候選單元於該叢集中。 44 · 一種用以自一概念網路形成一支系之電腦實施方法,該概念網路包含複數單元與定義於該單元間之複數關 係,其中各關係具有一相關邊界加權,該方法包含之動 作有: 形成複數叢集,其中各叢集包含至少一基本單元; 選擇該複數叢集其中之一作為一開始叢集; 初始化一支系以僅包含該開始叢集之基本單元;且 為該開始叢集之各成員單元u,於以下事件中加入 該成員單元u至該支系中:(a) 亦為具有成員單元w做為該基本單元之其中一叢集 之成員之支系之目前成員之分數等於或大於一第一 閥值;及 (b) 具有目前支系成員作為亦包含成員單元w之基本單 元之叢集分數等於或大於一第二閥值。 4 5 .如申請專利範圍第44項所述之方法,其中上述第一閥 值與上述第二闊值各等於100%。 4 6.如申請專利範圍第44項所述之方法,其中上述第一閥 69 200529009 值與上述第二閥值各等於約70 %。70
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US51022003P | 2003-10-09 | 2003-10-09 | |
| US10/797,614 US7346629B2 (en) | 2003-10-09 | 2004-03-09 | Systems and methods for search processing using superunits |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW200529009A true TW200529009A (en) | 2005-09-01 |
| TWI366766B TWI366766B (en) | 2012-06-21 |
Family
ID=34426184
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW093130562A TWI366766B (en) | 2003-10-09 | 2004-10-08 | Systems and methods for search processing using units |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US7346629B2 (zh) |
| EP (1) | EP1678639B1 (zh) |
| JP (2) | JP5197959B2 (zh) |
| KR (1) | KR100851706B1 (zh) |
| CN (1) | CN1882943B (zh) |
| TW (1) | TWI366766B (zh) |
| WO (1) | WO2005036351A2 (zh) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI471737B (zh) * | 2008-04-15 | 2015-02-01 | Yahoo Inc | 具搜尋結果之蹤跡識別系統與方法 |
| TWI485569B (zh) * | 2008-05-06 | 2015-05-21 | 雅虎股份有限公司 | 產生標題頁之方法及系統 |
Families Citing this family (156)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7130819B2 (en) * | 2003-09-30 | 2006-10-31 | Yahoo! Inc. | Method and computer readable medium for search scoring |
| US7844589B2 (en) * | 2003-11-18 | 2010-11-30 | Yahoo! Inc. | Method and apparatus for performing a search |
| US8914383B1 (en) | 2004-04-06 | 2014-12-16 | Monster Worldwide, Inc. | System and method for providing job recommendations |
| US7777125B2 (en) * | 2004-11-19 | 2010-08-17 | Microsoft Corporation | Constructing a table of music similarity vectors from a music similarity graph |
| US9286387B1 (en) * | 2005-01-14 | 2016-03-15 | Wal-Mart Stores, Inc. | Double iterative flavored rank |
| US8375067B2 (en) * | 2005-05-23 | 2013-02-12 | Monster Worldwide, Inc. | Intelligent job matching system and method including negative filtration |
| US20060265270A1 (en) * | 2005-05-23 | 2006-11-23 | Adam Hyder | Intelligent job matching system and method |
| US7720791B2 (en) * | 2005-05-23 | 2010-05-18 | Yahoo! Inc. | Intelligent job matching system and method including preference ranking |
| US8433713B2 (en) * | 2005-05-23 | 2013-04-30 | Monster Worldwide, Inc. | Intelligent job matching system and method |
| US8527510B2 (en) * | 2005-05-23 | 2013-09-03 | Monster Worldwide, Inc. | Intelligent job matching system and method |
| US20070005588A1 (en) * | 2005-07-01 | 2007-01-04 | Microsoft Corporation | Determining relevance using queries as surrogate content |
| US20070038608A1 (en) * | 2005-08-10 | 2007-02-15 | Anjun Chen | Computer search system for improved web page ranking and presentation |
| US7555472B2 (en) * | 2005-09-02 | 2009-06-30 | The Board Of Trustees Of The University Of Illinois | Identifying conceptual gaps in a knowledge base |
| US8266185B2 (en) | 2005-10-26 | 2012-09-11 | Cortica Ltd. | System and methods thereof for generation of searchable structures respective of multimedia data content |
| US11604847B2 (en) | 2005-10-26 | 2023-03-14 | Cortica Ltd. | System and method for overlaying content on a multimedia content element based on user interest |
| US10191976B2 (en) | 2005-10-26 | 2019-01-29 | Cortica, Ltd. | System and method of detecting common patterns within unstructured data elements retrieved from big data sources |
| US10848590B2 (en) | 2005-10-26 | 2020-11-24 | Cortica Ltd | System and method for determining a contextual insight and providing recommendations based thereon |
| US9558449B2 (en) | 2005-10-26 | 2017-01-31 | Cortica, Ltd. | System and method for identifying a target area in a multimedia content element |
| US10621988B2 (en) | 2005-10-26 | 2020-04-14 | Cortica Ltd | System and method for speech to text translation using cores of a natural liquid architecture system |
| US10585934B2 (en) | 2005-10-26 | 2020-03-10 | Cortica Ltd. | Method and system for populating a concept database with respect to user identifiers |
| US9747420B2 (en) | 2005-10-26 | 2017-08-29 | Cortica, Ltd. | System and method for diagnosing a patient based on an analysis of multimedia content |
| US10360253B2 (en) | 2005-10-26 | 2019-07-23 | Cortica, Ltd. | Systems and methods for generation of searchable structures respective of multimedia data content |
| US10614626B2 (en) | 2005-10-26 | 2020-04-07 | Cortica Ltd. | System and method for providing augmented reality challenges |
| US10635640B2 (en) | 2005-10-26 | 2020-04-28 | Cortica, Ltd. | System and method for enriching a concept database |
| US11003706B2 (en) | 2005-10-26 | 2021-05-11 | Cortica Ltd | System and methods for determining access permissions on personalized clusters of multimedia content elements |
| US11032017B2 (en) | 2005-10-26 | 2021-06-08 | Cortica, Ltd. | System and method for identifying the context of multimedia content elements |
| US11361014B2 (en) | 2005-10-26 | 2022-06-14 | Cortica Ltd. | System and method for completing a user profile |
| US9529984B2 (en) | 2005-10-26 | 2016-12-27 | Cortica, Ltd. | System and method for verification of user identification based on multimedia content elements |
| US8326775B2 (en) | 2005-10-26 | 2012-12-04 | Cortica Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
| US8312031B2 (en) | 2005-10-26 | 2012-11-13 | Cortica Ltd. | System and method for generation of complex signatures for multimedia data content |
| US9953032B2 (en) | 2005-10-26 | 2018-04-24 | Cortica, Ltd. | System and method for characterization of multimedia content signals using cores of a natural liquid architecture system |
| US9396435B2 (en) | 2005-10-26 | 2016-07-19 | Cortica, Ltd. | System and method for identification of deviations from periodic behavior patterns in multimedia content |
| US10380267B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for tagging multimedia content elements |
| US11403336B2 (en) | 2005-10-26 | 2022-08-02 | Cortica Ltd. | System and method for removing contextually identical multimedia content elements |
| US9031999B2 (en) | 2005-10-26 | 2015-05-12 | Cortica, Ltd. | System and methods for generation of a concept based database |
| US9372940B2 (en) | 2005-10-26 | 2016-06-21 | Cortica, Ltd. | Apparatus and method for determining user attention using a deep-content-classification (DCC) system |
| US9466068B2 (en) | 2005-10-26 | 2016-10-11 | Cortica, Ltd. | System and method for determining a pupillary response to a multimedia data element |
| US10193990B2 (en) | 2005-10-26 | 2019-01-29 | Cortica Ltd. | System and method for creating user profiles based on multimedia content |
| US9477658B2 (en) | 2005-10-26 | 2016-10-25 | Cortica, Ltd. | Systems and method for speech to speech translation using cores of a natural liquid architecture system |
| US8818916B2 (en) | 2005-10-26 | 2014-08-26 | Cortica, Ltd. | System and method for linking multimedia data elements to web pages |
| US10691642B2 (en) | 2005-10-26 | 2020-06-23 | Cortica Ltd | System and method for enriching a concept database with homogenous concepts |
| US10380623B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for generating an advertisement effectiveness performance score |
| US11216498B2 (en) | 2005-10-26 | 2022-01-04 | Cortica, Ltd. | System and method for generating signatures to three-dimensional multimedia data elements |
| US10535192B2 (en) | 2005-10-26 | 2020-01-14 | Cortica Ltd. | System and method for generating a customized augmented reality environment to a user |
| US20170185690A1 (en) * | 2005-10-26 | 2017-06-29 | Cortica, Ltd. | System and method for providing content recommendations based on personalized multimedia content element clusters |
| US9256668B2 (en) | 2005-10-26 | 2016-02-09 | Cortica, Ltd. | System and method of detecting common patterns within unstructured data elements retrieved from big data sources |
| US11620327B2 (en) | 2005-10-26 | 2023-04-04 | Cortica Ltd | System and method for determining a contextual insight and generating an interface with recommendations based thereon |
| US9767143B2 (en) | 2005-10-26 | 2017-09-19 | Cortica, Ltd. | System and method for caching of concept structures |
| US10180942B2 (en) | 2005-10-26 | 2019-01-15 | Cortica Ltd. | System and method for generation of concept structures based on sub-concepts |
| US10698939B2 (en) | 2005-10-26 | 2020-06-30 | Cortica Ltd | System and method for customizing images |
| US7676463B2 (en) * | 2005-11-15 | 2010-03-09 | Kroll Ontrack, Inc. | Information exploration systems and method |
| US8195657B1 (en) | 2006-01-09 | 2012-06-05 | Monster Worldwide, Inc. | Apparatuses, systems and methods for data entry correlation |
| US8122013B1 (en) * | 2006-01-27 | 2012-02-21 | Google Inc. | Title based local search ranking |
| US7849047B2 (en) * | 2006-02-09 | 2010-12-07 | Ebay Inc. | Method and system to analyze domain rules based on domain coverage of the domain rules |
| US7640234B2 (en) * | 2006-02-09 | 2009-12-29 | Ebay Inc. | Methods and systems to communicate information |
| US9443333B2 (en) * | 2006-02-09 | 2016-09-13 | Ebay Inc. | Methods and systems to communicate information |
| US7739225B2 (en) | 2006-02-09 | 2010-06-15 | Ebay Inc. | Method and system to analyze aspect rules based on domain coverage of an aspect-value pair |
| US7725417B2 (en) * | 2006-02-09 | 2010-05-25 | Ebay Inc. | Method and system to analyze rules based on popular query coverage |
| US7739226B2 (en) * | 2006-02-09 | 2010-06-15 | Ebay Inc. | Method and system to analyze aspect rules based on domain coverage of the aspect rules |
| US8380698B2 (en) * | 2006-02-09 | 2013-02-19 | Ebay Inc. | Methods and systems to generate rules to identify data items |
| US7689554B2 (en) * | 2006-02-28 | 2010-03-30 | Yahoo! Inc. | System and method for identifying related queries for languages with multiple writing systems |
| US7814097B2 (en) * | 2006-03-07 | 2010-10-12 | Yahoo! Inc. | Discovering alternative spellings through co-occurrence |
| US7716229B1 (en) * | 2006-03-31 | 2010-05-11 | Microsoft Corporation | Generating misspells from query log context usage |
| US12314907B2 (en) | 2006-03-31 | 2025-05-27 | Monster Worldwide, Inc. | Apparatuses, methods and systems for automated online data submission |
| US8600931B1 (en) | 2006-03-31 | 2013-12-03 | Monster Worldwide, Inc. | Apparatuses, methods and systems for automated online data submission |
| US20070248026A1 (en) * | 2006-04-19 | 2007-10-25 | Electronic Data Systems Corporation | System, Method, and Computer Program Product for Concept Network Based Collaboration |
| KR101322599B1 (ko) * | 2006-06-13 | 2013-10-29 | 마이크로소프트 코포레이션 | 검색 결과들의 표시를 돕는 컴퓨터 구현 시스템, 컴퓨터 구현 방법, 및 컴퓨터 판독가능 매체 |
| US7529740B2 (en) * | 2006-08-14 | 2009-05-05 | International Business Machines Corporation | Method and apparatus for organizing data sources |
| US10733326B2 (en) | 2006-10-26 | 2020-08-04 | Cortica Ltd. | System and method for identification of inappropriate multimedia content |
| US8195734B1 (en) | 2006-11-27 | 2012-06-05 | The Research Foundation Of State University Of New York | Combining multiple clusterings by soft correspondence |
| US7822734B2 (en) * | 2006-12-12 | 2010-10-26 | Yahoo! Inc. | Selecting and presenting user search results based on an environment taxonomy |
| US8024280B2 (en) * | 2006-12-21 | 2011-09-20 | Yahoo! Inc. | Academic filter |
| US7657514B2 (en) | 2007-01-30 | 2010-02-02 | Google Inc. | Content identification expansion |
| US8112402B2 (en) | 2007-02-26 | 2012-02-07 | Microsoft Corporation | Automatic disambiguation based on a reference resource |
| WO2008120030A1 (en) * | 2007-04-02 | 2008-10-09 | Sobha Renaissance Information | Latent metonymical analysis and indexing [lmai] |
| US7672937B2 (en) * | 2007-04-11 | 2010-03-02 | Yahoo, Inc. | Temporal targeting of advertisements |
| US8949214B1 (en) * | 2007-04-24 | 2015-02-03 | Wal-Mart Stores, Inc. | Mashup platform |
| KR20080096005A (ko) * | 2007-04-26 | 2008-10-30 | 엔에이치엔(주) | 키워드 제공 범위에 따라 키워드 제공 방법 및 그 시스템 |
| US8051056B2 (en) * | 2007-05-29 | 2011-11-01 | Microsoft Corporation | Acquiring ontological knowledge from query logs |
| US8392446B2 (en) * | 2007-05-31 | 2013-03-05 | Yahoo! Inc. | System and method for providing vector terms related to a search query |
| US20090006311A1 (en) * | 2007-06-28 | 2009-01-01 | Yahoo! Inc. | Automated system to improve search engine optimization on web pages |
| US8862608B2 (en) * | 2007-11-13 | 2014-10-14 | Wal-Mart Stores, Inc. | Information retrieval using category as a consideration |
| US7870132B2 (en) * | 2008-01-28 | 2011-01-11 | Microsoft Corporation | Constructing web query hierarchies from click-through data |
| US9779390B1 (en) | 2008-04-21 | 2017-10-03 | Monster Worldwide, Inc. | Apparatuses, methods and systems for advancement path benchmarking |
| US8065310B2 (en) * | 2008-06-25 | 2011-11-22 | Microsoft Corporation | Topics in relevance ranking model for web search |
| US10025855B2 (en) * | 2008-07-28 | 2018-07-17 | Excalibur Ip, Llc | Federated community search |
| GB2463669A (en) * | 2008-09-19 | 2010-03-24 | Motorola Inc | Using a semantic graph to expand characterising terms of a content item and achieve targeted selection of associated content items |
| US20100094826A1 (en) * | 2008-10-14 | 2010-04-15 | Omid Rouhani-Kalleh | System for resolving entities in text into real world objects using context |
| US20100094846A1 (en) * | 2008-10-14 | 2010-04-15 | Omid Rouhani-Kalleh | Leveraging an Informational Resource for Doing Disambiguation |
| US8041733B2 (en) * | 2008-10-14 | 2011-10-18 | Yahoo! Inc. | System for automatically categorizing queries |
| US20100094855A1 (en) * | 2008-10-14 | 2010-04-15 | Omid Rouhani-Kalleh | System for transforming queries using object identification |
| US8412749B2 (en) | 2009-01-16 | 2013-04-02 | Google Inc. | Populating a structured presentation with new values |
| US8615707B2 (en) * | 2009-01-16 | 2013-12-24 | Google Inc. | Adding new attributes to a structured presentation |
| US8977645B2 (en) * | 2009-01-16 | 2015-03-10 | Google Inc. | Accessing a search interface in a structured presentation |
| US8452791B2 (en) | 2009-01-16 | 2013-05-28 | Google Inc. | Adding new instances to a structured presentation |
| US20100185651A1 (en) * | 2009-01-16 | 2010-07-22 | Google Inc. | Retrieving and displaying information from an unstructured electronic document collection |
| CN101477542B (zh) * | 2009-01-22 | 2013-02-13 | 阿里巴巴集团控股有限公司 | 一种抽样分析方法、系统和设备 |
| US20110106819A1 (en) * | 2009-10-29 | 2011-05-05 | Google Inc. | Identifying a group of related instances |
| TWI601024B (zh) * | 2009-07-06 | 2017-10-01 | Alibaba Group Holding Ltd | Sampling methods, systems and equipment |
| US8285716B1 (en) * | 2009-12-21 | 2012-10-09 | Google Inc. | Identifying and ranking digital resources relating to places |
| US8375061B2 (en) * | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
| CA2823405C (en) * | 2010-12-30 | 2018-12-18 | Primal Fusion Inc. | System and method for using a knowledge representation to provide information based on environmental inputs |
| US8983995B2 (en) | 2011-04-15 | 2015-03-17 | Microsoft Corporation | Interactive semantic query suggestion for content search |
| DE112012006412T5 (de) * | 2012-05-24 | 2015-02-12 | Hitachi, Ltd. | System zur verteilten Datensuche, Verfahren zur verteilten Datensuche und Managementcomputer |
| US9524520B2 (en) | 2013-04-30 | 2016-12-20 | Wal-Mart Stores, Inc. | Training a classification model to predict categories |
| US9524319B2 (en) | 2013-04-30 | 2016-12-20 | Wal-Mart Stores, Inc. | Search relevance |
| US20170330153A1 (en) | 2014-05-13 | 2017-11-16 | Monster Worldwide, Inc. | Search Extraction Matching, Draw Attention-Fit Modality, Application Morphing, and Informed Apply Apparatuses, Methods and Systems |
| US10229201B2 (en) | 2014-07-31 | 2019-03-12 | International Business Machines Corporation | Interface for simultaneous display of selected items from search engine results |
| US20160092595A1 (en) * | 2014-09-30 | 2016-03-31 | Alcatel-Lucent Usa Inc. | Systems And Methods For Processing Graphs |
| US10552994B2 (en) * | 2014-12-22 | 2020-02-04 | Palantir Technologies Inc. | Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items |
| US9495614B1 (en) * | 2015-02-27 | 2016-11-15 | Google Inc. | Verifying labels for images using image recognition |
| US10268732B2 (en) * | 2015-06-29 | 2019-04-23 | Google Llc | Ranking native applications and native application deep links |
| US11301502B1 (en) * | 2015-09-15 | 2022-04-12 | Google Llc | Parsing natural language queries without retraining |
| CN106682012B (zh) * | 2015-11-06 | 2020-12-01 | 阿里巴巴集团控股有限公司 | 商品对象信息搜索方法及装置 |
| US10552427B2 (en) | 2016-04-29 | 2020-02-04 | Nutanix, Inc. | Searching for information relating to virtualization environments |
| US10831450B2 (en) | 2016-10-26 | 2020-11-10 | Soroco Private Limited | Systems and methods for discovering automatable tasks |
| US20180349447A1 (en) * | 2017-06-02 | 2018-12-06 | Apple Inc. | Methods and systems for customizing suggestions using user-specific information |
| US11760387B2 (en) | 2017-07-05 | 2023-09-19 | AutoBrains Technologies Ltd. | Driving policies determination |
| WO2019012527A1 (en) | 2017-07-09 | 2019-01-17 | Cortica Ltd. | ORGANIZATION OF DEPTH LEARNING NETWORKS |
| US20190026295A1 (en) * | 2017-07-19 | 2019-01-24 | Nutanix, Inc. | System and method for obtaining application insights through search |
| US11023472B2 (en) | 2018-02-27 | 2021-06-01 | Nutanix, Inc. | System and method for troubleshooting in a virtual computing system |
| US20200110996A1 (en) * | 2018-10-05 | 2020-04-09 | International Business Machines Corporation | Machine learning of keywords |
| US11126870B2 (en) | 2018-10-18 | 2021-09-21 | Cartica Ai Ltd. | Method and system for obstacle detection |
| US12330646B2 (en) | 2018-10-18 | 2025-06-17 | Autobrains Technologies Ltd | Off road assistance |
| US10839694B2 (en) | 2018-10-18 | 2020-11-17 | Cartica Ai Ltd | Blind spot alert |
| US11181911B2 (en) | 2018-10-18 | 2021-11-23 | Cartica Ai Ltd | Control transfer of a vehicle |
| US20200133308A1 (en) | 2018-10-18 | 2020-04-30 | Cartica Ai Ltd | Vehicle to vehicle (v2v) communication less truck platooning |
| US11270132B2 (en) | 2018-10-26 | 2022-03-08 | Cartica Ai Ltd | Vehicle to vehicle communication and signatures |
| US10748038B1 (en) | 2019-03-31 | 2020-08-18 | Cortica Ltd. | Efficient calculation of a robust signature of a media unit |
| US10789535B2 (en) | 2018-11-26 | 2020-09-29 | Cartica Ai Ltd | Detection of road elements |
| US11643005B2 (en) | 2019-02-27 | 2023-05-09 | Autobrains Technologies Ltd | Adjusting adjustable headlights of a vehicle |
| US11285963B2 (en) | 2019-03-10 | 2022-03-29 | Cartica Ai Ltd. | Driver-based prediction of dangerous events |
| US11694088B2 (en) | 2019-03-13 | 2023-07-04 | Cortica Ltd. | Method for object detection using knowledge distillation |
| US11132548B2 (en) | 2019-03-20 | 2021-09-28 | Cortica Ltd. | Determining object information that does not explicitly appear in a media unit signature |
| US12055408B2 (en) | 2019-03-28 | 2024-08-06 | Autobrains Technologies Ltd | Estimating a movement of a hybrid-behavior vehicle |
| US10789527B1 (en) | 2019-03-31 | 2020-09-29 | Cortica Ltd. | Method for object detection using shallow neural networks |
| US10796444B1 (en) | 2019-03-31 | 2020-10-06 | Cortica Ltd | Configuring spanning elements of a signature generator |
| US11222069B2 (en) | 2019-03-31 | 2022-01-11 | Cortica Ltd. | Low-power calculation of a signature of a media unit |
| US10776669B1 (en) | 2019-03-31 | 2020-09-15 | Cortica Ltd. | Signature generation and object detection that refer to rare scenes |
| US11593662B2 (en) | 2019-12-12 | 2023-02-28 | Autobrains Technologies Ltd | Unsupervised cluster generation |
| US10748022B1 (en) | 2019-12-12 | 2020-08-18 | Cartica Ai Ltd | Crowd separation |
| US11590988B2 (en) | 2020-03-19 | 2023-02-28 | Autobrains Technologies Ltd | Predictive turning assistant |
| US11827215B2 (en) | 2020-03-31 | 2023-11-28 | AutoBrains Technologies Ltd. | Method for training a driving related object detector |
| US11816112B1 (en) | 2020-04-03 | 2023-11-14 | Soroco India Private Limited | Systems and methods for automated process discovery |
| CN111861108B (zh) * | 2020-06-08 | 2025-09-19 | 中国电力科学研究院有限公司 | 一种基于图传播的电力用户电价响应行为刻画方法和系统 |
| US12141206B2 (en) | 2020-06-16 | 2024-11-12 | Nec Corporation | Information search apparatus, information search method, and computer-readable recording medium |
| US11756424B2 (en) | 2020-07-24 | 2023-09-12 | AutoBrains Technologies Ltd. | Parking assist |
| US12049116B2 (en) | 2020-09-30 | 2024-07-30 | Autobrains Technologies Ltd | Configuring an active suspension |
| US12142005B2 (en) | 2020-10-13 | 2024-11-12 | Autobrains Technologies Ltd | Camera based distance measurements |
| US12257949B2 (en) | 2021-01-25 | 2025-03-25 | Autobrains Technologies Ltd | Alerting on driving affecting signal |
| US12020046B1 (en) | 2021-04-02 | 2024-06-25 | Soroco India Private Limited | Systems and methods for automated process discovery |
| US12139166B2 (en) | 2021-06-07 | 2024-11-12 | Autobrains Technologies Ltd | Cabin preferences setting that is based on identification of one or more persons in the cabin |
| US12511873B2 (en) | 2021-06-07 | 2025-12-30 | Cortica, Ltd. | Isolating unique and representative patterns of a concept structure |
| KR20230005779A (ko) | 2021-07-01 | 2023-01-10 | 오토브레인즈 테크놀로지스 리미티드 | 차선 경계 감지 |
| EP4194300B1 (en) | 2021-08-05 | 2026-01-28 | Autobrains Technologies LTD. | Providing a prediction of a radius of a motorcycle turn |
| US12293560B2 (en) | 2021-10-26 | 2025-05-06 | Autobrains Technologies Ltd | Context based separation of on-/off-vehicle points of interest in videos |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH07248948A (ja) * | 1994-03-10 | 1995-09-26 | Fujitsu Ltd | データベースの動的構成方式 |
| US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
| JPH08137898A (ja) * | 1994-11-08 | 1996-05-31 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置 |
| US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
| WO1997008604A2 (en) * | 1995-08-16 | 1997-03-06 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
| US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
| US5819258A (en) * | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
| US6539348B1 (en) * | 1998-08-24 | 2003-03-25 | Virtual Research Associates, Inc. | Systems and methods for parsing a natural language sentence |
| US6363373B1 (en) * | 1998-10-01 | 2002-03-26 | Microsoft Corporation | Method and apparatus for concept searching using a Boolean or keyword search engine |
| JP3335602B2 (ja) * | 1999-11-26 | 2002-10-21 | 株式会社クリエイティブ・ブレインズ | 思考系の解析方法および解析装置 |
| US6772150B1 (en) * | 1999-12-10 | 2004-08-03 | Amazon.Com, Inc. | Search query refinement using related search phrases |
| SG93868A1 (en) * | 2000-06-07 | 2003-01-21 | Kent Ridge Digital Labs | Method and system for user-configurable clustering of information |
| US6675159B1 (en) * | 2000-07-27 | 2004-01-06 | Science Applic Int Corp | Concept-based search and retrieval system |
| US6684205B1 (en) * | 2000-10-18 | 2004-01-27 | International Business Machines Corporation | Clustering hypertext with applications to web searching |
| US7031980B2 (en) * | 2000-11-02 | 2006-04-18 | Hewlett-Packard Development Company, L.P. | Music similarity function based on signal analysis |
| WO2002063493A1 (en) * | 2001-02-08 | 2002-08-15 | 2028, Inc. | Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication |
| US7403938B2 (en) * | 2001-09-24 | 2008-07-22 | Iac Search & Media, Inc. | Natural language query processing |
| CA2475319A1 (en) * | 2002-02-04 | 2003-08-14 | Cataphora, Inc. | A method and apparatus to visually present discussions for data mining purposes |
| US7085771B2 (en) * | 2002-05-17 | 2006-08-01 | Verity, Inc | System and method for automatically discovering a hierarchy of concepts from a corpus of documents |
| US7051023B2 (en) | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
-
2004
- 2004-03-09 US US10/797,614 patent/US7346629B2/en not_active Expired - Lifetime
- 2004-10-07 WO PCT/US2004/033097 patent/WO2005036351A2/en not_active Ceased
- 2004-10-07 KR KR1020067008727A patent/KR100851706B1/ko not_active Expired - Fee Related
- 2004-10-07 EP EP04794443.4A patent/EP1678639B1/en not_active Expired - Lifetime
- 2004-10-07 CN CN2004800344013A patent/CN1882943B/zh not_active Expired - Fee Related
- 2004-10-07 JP JP2006534333A patent/JP5197959B2/ja not_active Expired - Lifetime
- 2004-10-08 TW TW093130562A patent/TWI366766B/zh not_active IP Right Cessation
-
2010
- 2010-09-24 JP JP2010230964A patent/JP5461360B2/ja not_active Expired - Lifetime
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI471737B (zh) * | 2008-04-15 | 2015-02-01 | Yahoo Inc | 具搜尋結果之蹤跡識別系統與方法 |
| TWI485569B (zh) * | 2008-05-06 | 2015-05-21 | 雅虎股份有限公司 | 產生標題頁之方法及系統 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN1882943B (zh) | 2010-05-12 |
| CN1882943A (zh) | 2006-12-20 |
| JP2011014167A (ja) | 2011-01-20 |
| EP1678639B1 (en) | 2014-06-25 |
| WO2005036351A2 (en) | 2005-04-21 |
| WO2005036351A3 (en) | 2006-01-26 |
| US7346629B2 (en) | 2008-03-18 |
| US20050080795A1 (en) | 2005-04-14 |
| KR20060131746A (ko) | 2006-12-20 |
| TWI366766B (en) | 2012-06-21 |
| JP2007519069A (ja) | 2007-07-12 |
| KR100851706B1 (ko) | 2008-08-11 |
| JP5461360B2 (ja) | 2014-04-02 |
| JP5197959B2 (ja) | 2013-05-15 |
| EP1678639A2 (en) | 2006-07-12 |
| EP1678639A4 (en) | 2008-02-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TW200529009A (en) | Systems and methods for search processing using superunits | |
| JP4722051B2 (ja) | 傾向分析を用いる検索クエリ処理のためのシステムおよび方法 | |
| Adamic et al. | Friends and neighbors on the web | |
| CN101111837B (zh) | 查询自动分类的搜索处理 | |
| JP2021108183A (ja) | 意図推薦方法、装置、機器及び記憶媒体 | |
| EP2836935B1 (en) | Finding data in connected corpuses using examples | |
| EP3861465A1 (en) | User-centric browser location | |
| CN105512316B (zh) | 一种结合移动终端的知识服务系统 | |
| JP2019040598A5 (zh) | ||
| Cheng et al. | Context-based page unit recommendation for web-based sensemaking tasks | |
| Bah et al. | University of delaware at TREC 2014 | |
| Grolmus et al. | A web-based user-profile generator: foundation for a recommender and expert finding system. | |
| Wasim et al. | Extracting and modeling user interests based on social media | |
| Alahmari et al. | A model for ranking entity attributes using DBpedia | |
| Damas | Building a domain-specific search engine that explores football-related search patterns | |
| Bhargava et al. | News as Data for Activists: a case study in feminicide counterdata production | |
| US20140279925A1 (en) | Population of data in a spiritual research database system and method | |
| KR20240015280A (ko) | 트렌드 분석을 이용한 검색 쿼리 처리 시스템 및 방법 | |
| HK1117243B (zh) | 查询自动分类的搜索处理 | |
| Carchiolo et al. | Connecting relatives in virtual worlds: The kinship networks | |
| Kliegr | Click stream analysis–the semantic approach | |
| GHIGINI et al. | Recommendation for navigation paths over multidomain data on the Web | |
| Jurco | Finding People on the Internet |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |