TW201421395A - 用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法 - Google Patents

用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法 Download PDF

Info

Publication number
TW201421395A
TW201421395A TW102136326A TW102136326A TW201421395A TW 201421395 A TW201421395 A TW 201421395A TW 102136326 A TW102136326 A TW 102136326A TW 102136326 A TW102136326 A TW 102136326A TW 201421395 A TW201421395 A TW 201421395A
Authority
TW
Taiwan
Prior art keywords
data
search
metadata
information
targets
Prior art date
Application number
TW102136326A
Other languages
English (en)
Other versions
TWI556180B (zh
Inventor
Anthony Scriffignano
Michael Klein
Thang Q Hoang
Vindra Rampaul
Robin Davies
Anjali Reddi
Original Assignee
Dun & Bradstreet Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dun & Bradstreet Corp filed Critical Dun & Bradstreet Corp
Publication of TW201421395A publication Critical patent/TW201421395A/zh
Application granted granted Critical
Publication of TWI556180B publication Critical patent/TWI556180B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種用於根據一詢問進行資料探索之系統及方法,在該系統及方法中,檢查可為網站或其他資料源之多個來源中與該詢問相關之資料。該程序及方法係使用來自多個來源之資料及元資料遞迴地執行一不定數目之迭代以便確證來自其他來源之所探索資料及元資料,直至不再找到其他相關資料或來源,或已滿足判定規則或例外規則。所探索資料及元資料係使用優先規則及來源區來管理、判定以評鑑可靠性、綜合及群聚為複合記錄,從而確定最可靠資料源以及針對每一來源之使用條件。關於每一來源之資料、元資料以及資訊獲留存且可用於後續目的,諸如後續搜尋或其他下游活動。

Description

用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法
本申請案主張2012年10月9日申請之美國臨時專利申請案序列第61/711,673號之優先權及權益,該臨時申請案以全文引用方式歸納本文以達所有目的。
發明領域
本揭示案係關於建立使用一或多個來源來探索、識別、收集、管理、判定及鑑定商業實體身分及相關資料之遞迴及靈活能力。
發明背景
此部分中所描述之方法為可採取之方法,但不一定為先前已設想或已採取之方法。因此,除非另外指示,否則此部分中所描述之方法可不為本申請案中申請專利範圍之先前技術,且不欲因包含在此部分中而承認其為先前技術。
經由搜尋、匹配以及其他解析能力之高效資料存取對於探索及判定關於商業及其他類型實體之身分及相關 資訊而言係重要的。對此目標至關重要的是,允許對來自一或多個資料源之資訊的高效存取、擷取以及關聯的能力。另外,極為重要的是具有評鑑及鑑定藉以存取此等資料之程序及存取此等資料之來源以及該等資料本身之能力。此評鑑及鑑定包括對資料及來源之分析,自該分析可產生可動作回饋且隨後可利用該回饋來用於做出關於以下者之決定:該程序、該資料、關於所探索資料之元資料、自其探索資料之來源、關於該等來源之元資料以及來自整個程序之可動作回饋。
當前市場上存在可利用之探索式產品及能力,該等探索式產品及能力經由批次或交易能力來攝吸(ingest)關於一實體或實體群組之詢問,例如,當使用者藉由不同方法進行輸入之情況,諸如(a)人已藉由鍵入資料或「清除」來自其他來源之資料將資料輸入詢問欄位中,(b)機器產生詢問值,或(c)系統直接與另一系統交互作用且隨後訊問網站或其他資料源之條目,該等條目含有詢問屬性或關於該等屬性之推定資訊。在其他情況下,在傳統網站探索方法中,技術可爬取可為自由形式或具有固定本體論(或邏輯結構)之資料。
此等當前探索式產品及能力通常在許多層面受到限制,該等層面包括:對詢問資料分析及解歧來定義屬性之方式,該等屬性可用來識別來自現存資料源之資料;對此類資料源存取之方式;使用來自所存取來源之資料來起始或支援後續解析詢問之方式;關於解析程序及所存取 資料之特徵所提供之資訊,該等特徵諸如品質、完整性以及潛時;以及可將此種資訊用作事物管理程序的一部分之方式,該事物管理程序包括探索、鑑定、判定及管理,以及符合使用條件及支配限制條件。
此等當前探索式產品及能力通常將資料直接提供至發出詢問之終端使用者及系統,而不儲存關於解析程序成功及該解析程序之結果的資訊以供後續使用。另外,此等當前探索式產品及能力通常不會維持關於所探索資料之元資料及資料源。此外,此等當前探索式產品及能力不經由遞迴學習程序將自一搜尋所存取之資料及元資料用作另一搜尋之輸入。
此等當前探索式產品及能力具有有限的自動地使用經驗學習以便形成意見或變化之能力,該經驗學習係關於每次經驗之資料及資料源之真實性、來源區以及內容,該等意見影響未來存取及使用該等來源及其資料之可能性,或該等變化為該等來源之操作性特徵或定性態樣中之變化。
發明概要
所揭示之實施例包括一種程序,該程序經遞迴執行來利用一詢問之結果或目標屬性之集合以便起始自該相同資料源以及自其他資料源之後續詢問,以使得所探索資料變成詢問資料。
在所揭示之實施例中,產生、管理、綜合及自動 歸納關於每次經驗之資料及資料源之真實性、來源區以及內容之經驗資訊來形成意見,該等意見影響未來存取及使用該等來源及其資料之可能性。
在所揭示之實施例中,產生關於每次經驗之回饋來允許可為人、電腦系統或其他接受者或下游程序之一終端使用者利用商業規則而驅使該程序及終端結果之使用及消耗以便做出決策,該等決策係關於以一致及可重複方式、且若該等相同商業規則適用於不同技術、產品或解決方案則以一可縮放方式使用資訊。
在所揭示之實施例中,程序可不限制上下文、地理位置、語言或寫入系統而執行。此結果係經由一語言不可知論能力而實現,該能力允許使用任何種類或任何數目之標準網站語言標籤且不受編碼及邏輯限制,該編碼及邏輯對上下文、地理位置、語言或寫入系統而言係特定的。
本文件揭示一種用以執行一自動化遞迴探索程序之自動化系統及方法,該探索程序不需要人類介入來識別、鑑定、管理、判定及綜合諸如例如商業身分或行為之資料及自多個來源存取之相關元資料資訊。
本揭示案係針對一種用以搜尋與一詢問相關之資料的系統,該系統包含:一儲存裝置,其含有種子來源之一清單,該等種子來源指定針對該詢問之初始搜尋目標;一搜尋引擎,其基於自該等初始搜尋目標及先前額外搜尋目標識別之資料及元資料來搜尋該等初始搜尋目標中與該詢問相關之資料;該儲存裝置儲存來自該等初始搜尋 目標及額外搜尋目標之該等資料及元資料;並且其中該搜尋引擎至少搜尋該等額外搜尋目標中與該詢問相關之額外資料及指定其他額外搜尋目標之資料及元資料。
該搜尋引擎搜尋該等額外搜尋目標並找到其他搜尋目標。將指定該等其他搜尋目標之資料及任何相關元資料儲存於該儲存裝置中以由該搜尋引擎在存取該等其他目標中使用。搜尋額外搜尋目標並找到其他搜尋目標,直至對額外搜尋目標之該搜尋不再產生待搜尋之其他搜尋目標,或直至已滿足可接受之判定規則或例外規則。
該等其他搜尋目標係經由一遞迴及窮舉程序而找到,藉由該程序並基於來自先前搜尋及搜尋目標之結果的資料及元資料來識別搜尋目標。
該搜尋引擎係組配來搜尋網站或其他來源,且種子來源之該清單為網站或其他來源之一清單。
該處理器係組配來淨化自每一搜尋目標所獲取之資料。淨化可包括以下至少一者:剖析該等資料、移除該等資料之錯誤值或不恰當值,以及自該等資料移除預定符記。
該處理器可組配來藉由以下方式對給定資料執行資料驗證:比較來自已搜尋到之搜尋目標之該等給定資料,以及基於優先規則及使用規則之集合來自視為最可靠及最可用之一來源選擇有效資料。該處理器亦可組配來管理、判定、綜合及群聚來自不同搜尋目標之相關資料以便形成群聚資料記錄。該處理器可自該等群聚資料記錄產生 一複合資料記錄。
本揭示案亦係針對一種用以搜尋與一詢問相關之資料的方法,該方法包含:檢查在初始搜尋目標之一集合中所找到之資料;將來自該等初始搜尋目標之(a)與該詢問相關之資料及元資料中之至少一者及(b)指定將要搜尋之額外搜尋目標之資料及元資料中之至少一者儲存於一儲存裝置中;搜尋該等額外搜尋目標中(a)與該詢問相關之該等資料及元資料中之至少一者及(c)指定將要搜尋之其他搜尋目標之資料及元資料中之至少一者;以及將來自該等其他搜尋目標之(a)與該詢問相關之資料及元資料中之至少一者及(c)指定該等其他搜尋目標之資料及元資料中之至少一者儲存於該儲存裝置中。
在搜尋額外搜尋目標時,若找到其他目標,則該方法進一步包含:使用(c)指定該等其他搜尋目標之該等資料及元資料中之至少一者來存取該等其他目標;以及將來自該等其他搜尋目標之(c)與該詢問相關之資料及元資料中之至少一者及(d)指定將要搜尋之其他搜尋目標之資料及元資料中之至少一者儲存於該儲存裝置中。
該方法在對其他搜尋目標之該搜尋不再產生待搜尋之額外搜尋目標時終止。
根據該方法,該搜尋引擎可組配來搜尋網站或其他來源。種子來源之清單為網站或其他來源之一清單。
自一搜尋目標所獲取之該等資料可加以淨化。資料之該淨化可藉由包括以下之步驟執行:剖析該等資料、 移除該等資料之錯誤值,以及自該等資料移除預定符記。
資料驗證可藉由以下方式執行:比較來自已搜尋到之各種來源之該等資料,且基於優先規則之一集合來自視為最可靠之一來源選擇有效資料。
該方法可進一步包含管理、判定、綜合以及群聚來自不同來源之相關資料以便形成群聚資料記錄。複合多來源資料記錄可自群集資料記錄之集合產生。該方法可進一步包含但不限於例如執行選自由以下所組成之群中之至少一者:寫入至一資料庫、歸檔於一資料庫中、產生一報告以及公佈藉由搜尋與該詢問相關之資料而找到的結果。
該方法可進一步包含應用選自由以下所組成之群中之至少一者的一分析方法:規則、演算法、試探法以及其他分析功能,以便做出關於該等資料之決策以及關於繼續該方法或終止該方法之一決策。
本揭示案亦係針對一種儲存一電腦程式之指令的電腦可讀非暫時性儲存媒體,當該電腦程式在由一電腦系統執行時,引起以下步驟的執行:檢查在初始搜尋目標之一集合中所找到之資料;將來自該等初始搜尋目標之(a)與詢問相關之資料及元資料中之至少一者及(b)指定將要搜尋之額外搜尋目標之資料及元資料中之至少一者儲存於一儲存裝置中;搜尋該等額外搜尋目標中(a)與該詢問相關之資料及元資料中之至少一者及(c)指定將要搜尋之其他搜尋目標之資料及元資料中之至少一者;以及將來自該等其他搜尋目標之(a)與該詢問相關之資料及元資料中之至少一者 及(c)指定該等其他搜尋目標之資料儲存於該儲存裝置中。
該電腦可讀非暫時性儲存媒體可儲存一電腦程式之額外指令,當該電腦程式在由該電腦系統執行時,引起以下步驟的執行:使用(c)指定該等其他搜尋目標之該等資料及元資料中之至少一者來存取該等其他目標;以及將來自該等其他目標之(a)與該詢問相關之資料及元資料中之至少一者及(d)指定將要搜尋之其他搜尋目標之資料及元資料中之至少一者儲存於該儲存裝置中。
該電腦可讀非暫時性儲存媒體可儲存一電腦程式之額外指令,當該電腦程式在由該電腦系統執行時,在搜尋額外搜尋目標並找到指定其他搜尋目標之資料時,用以重複執行該方法直至對其他搜尋目標之該搜尋不再產生待搜尋之搜尋目標,或已滿足可接受之判定規則或例外規則。
100‧‧‧程序
101、110、130、135、140、149~151、154、160~162、170、301~307‧‧‧步驟
111‧‧‧種子來源清單
126‧‧‧處理規則清單
136‧‧‧輸入商業記錄
137‧‧‧輸出商業記錄清單
141‧‧‧單一來源記錄清單
146‧‧‧參考資料清單
147‧‧‧新詢問資料值清單
148‧‧‧接續動作處理規則清單/處理規則清單
165‧‧‧資料元件清單
300‧‧‧子程序
341‧‧‧單一來源記錄清單
342‧‧‧匹配關鍵字清單
343‧‧‧群聚記錄清單
344‧‧‧優先規則清單
345‧‧‧多來源記錄清單
346‧‧‧商業記錄清單
360‧‧‧資料元件
365‧‧‧複合記錄資料元件
405‧‧‧電腦
410‧‧‧使用者介面
415‧‧‧處理器
420‧‧‧網路
425‧‧‧記憶體
430‧‧‧程式模組
435‧‧‧儲存媒體
圖1為用以自一初始來源集合搜尋及收集資料之方法的方塊圖。
圖2為用以查核及合併記錄之方法的方塊圖。
圖3為用來實行所揭示之實施例之電腦系統的圖解。
一個以上之圖式所共用之組件或特徵在每一圖式中係使用同一參考數字來指示。
較佳實施例之詳細說明
定義
遞迴定義為一多步驟語言不可知論程序或多語言探索程序,藉由該程序,先前步驟之輸出變成後續步驟之輸入,此意味端對端行為及結果在開始時不可預測,而是由所探索資料、執行程序以及中間結果來確定。此活動可包括使用如自前導步驟所擷取之原始狀態的輸入資料或如可經修改而作為淨化或其他資料變換之結果的輸入資料。
解析定義為根據詢問值來識別資料之一程序。詢問可針對各種形式之參考使用不同的方法,例如經由匹配、搜尋或查找能力來解決。
探索為識別及鑑定根據一詢問而自資料源擷取之資訊的程序。
靈活性指示程序可基於用法及關於程序如何執行之資訊或其他元資料來自動調適,且易於修改以支援不同的目標。
非確定性蘊含的是:該靈活方法係基於關於資料、元資料以及存取該等資料及元資料之先前程序之資訊來動態定義,且不可相對於執行時間或結果而預先用代數方法估算。
經驗學習係指出於一系列的原因而使用資訊例如以便形成意見,該資訊有關於每次經驗之資料、資料源以及關於資料及資料源之元資料的真實性、來源區以及內容,該等意見影響未來存取及使用該等來源及其資料之可 能性。
回饋為關於探索經驗及程序,以及關於該程序之結果的資訊。此回饋可用來允許可為人、電腦系統或其他接受者之終端使用者利用商業規則來驅使該程序及終端結果之使用及消耗以便做出決策。反映所推斷之品質的回饋為資料,該資料可由終端使用者用來確定結果滿足終端使用者之基於品質的準則所達到之程度。
替代標記為資料,該等資料可用作解析程序的一部分或作為該程序之結果而擷取之資訊,該等資料有關於其主體之身分或其他態樣。標記可包括可為先前已知的或在執行探索期間所探索之資料,該等資料可隨後出於後續諸多原因諸如例如來管理、判定及綜合以便允許未來的探索經驗。
管理及判定程序定性地評鑑每次探索經驗及結果,且基於該等評鑑來確定後續動作。此程序包括留存及評鑑每一來源之來源區及真實性,該來源係在執行根據所述實施例之方法期間獲存取,以便提供將用於後續執行中之資訊,該資訊係關於每一來源之總定性益處及可自該來源存取之每一類型的資料。管理大體而言係指資料之組織、儲存以及維護。判定大體而言係指做出關於資料之品質及該品質如何能夠獲最有效使用之確定。
本文使用模組一詞來表示功能操作,該功能操作可體現為獨立組件或多個從屬組件之整合組態。因此,如下所述,程式模組可實施為單一模組或彼此協同操作之多 個模組。
搜尋引擎為解析能力之一實例,且通常為硬體及控制該硬體操作之軟體的組合,用以達到找到及搜集與詢問相關或作為該詢問的結果獲探索之資料的目的。
本文使用搜尋一詞來指示用來識別可能感興趣之資訊的任何方法。
如在本揭示案中所使用之應用特定一詞意味商業規則及程序之不同集合可經定義來滿足本文所揭示之特定目標,該等商業規則及程序係用於方法之執行及系統之實施。
可公佈意味由本發明所執行之程序的終端結果可用於後續使用,例如寫入至資料儲存庫、用作系統或應用之輸入或寫入至報告。
資料儲存裝置可為在電腦技術中用來通常以非暫時性方式儲存資料之任何裝置,如本文進一步所述。用來儲存不同種類資料之資料儲存裝置的不同部分可在相同實體裝置上或不同實體裝置上。
圖1及圖2為描述一示範性程序之功能方塊圖,該程序用以使用一遞迴程序來自全球資訊網(亦稱為網際網路)收集資料並將該等資料變換為可公佈之商業資料,該遞迴程序包括訪問已知網站或所探索網站,以及多次重複該程序來找到使用先前已知資料或經由該程序所探索資料之額外網站,從而識別、鑑定、判定、管理、綜合資料並將該等資料留存於一或多個資料儲存庫中,該等資料係以 允許以報告形式產生資料的方式來記載、使用其他視覺媒體或其他媒體來存取或顯示,或用來促進所探索資料在軟體應用內之整合以供後續使用。此所揭示之實施例為一設備,該設備包括搜尋引擎之各組件及用以處置商業實體資料之相關程序,但是該實施例可用於諸如例如醫學資料之其他類型資料。資料儲存庫可包括用於新實體之資料以及用於對先前存在於資料儲存庫中的實體進行修改之資料,該資料儲存庫為所揭示之實施例的一部分。
在圖1中,程序100中主要為該程序之資料探索部分的一部分自初始有限的來源集合搜尋及收集資料,該等來源係由網站位址或全球資源定位器(URL)識別,其包括待使用之預定義來源清單以及在執行程序100期間所識別之其他來源。在此實施例中,一旦搜尋到所有初始網址,程序100將核查其他新探索網址之存在,但是不同實施例中搜尋網址之次序可不同。此探索程序對所揭示之實施例之非確定性方法而言具有重要意義,因為該程序將繼續訪問新網站且基於預定義準則來搜集資料直至不可探索或不可搜集受關注之其他資訊。針對所探索網址之每一新集合,程序100藉由於規則、演算法、試探法或其他分析方法之集合來做出關於該程序將自身調用來繼續下一探索及搜集循環抑或終止活動集合之決策。此自我調用對所揭示之實施例之遞迴本質而言具有重要意義,且為可區別於傳統網路探勘及搜尋之一限定特徵。
可使用之演算法之一實例係藉由隔離且隨後合 併每一單獨字之首字母來產生作為商業名稱之替代值的縮寫字。例如,遵循此演算法,國際商業機器(International Business Machines)將變成IBM,或對該演算法做微小變化,國際商業機器公司(International Business Machines Corporation)亦將變成IBM。
可使用之試探法之一實例係基於產業類型來識別地理人口統計區段。例如,加州山景城的多個技術公司可表示四十歲以下的員工佔高百分比之傾向以及具有二級學位或PhD之個人佔高百分比之傾向。
在步驟101處,探索工作之接收起始程序100。在步驟110處,網站係基於種子來源清單111來訪問。種子來源清單111中之每一記錄包括一網站位址(URL)。此URL可包括遵循標準格式化規則之任何URL,諸如但不限於由「www」居先之該等規則。
程序100進展至步驟130,其中相關網站記錄係使用處理規則清單126來識別,該處理規則清單將所要資料類型定義為輸入值。處理規則清單126定義在種子來源清單111中正搜尋之資料元件。
下表提供處理規則清單126中之資料元件定義規則之一些實例。
在步驟130中,使用在處理規則清單126中所定義之規則,在經由步驟110提供的種子來源清單111中由URL識別之來源網站上所找到之資料受系統地讀取。就自網站讀取之每一條資料而言,在步驟130處做出關於資料是否與處理規則清單126中所定義之規則中任一規則相符合的確定。若一條資料與針對給定元件之規則相符合,則將該條資料以由資料元件清單165所定義之適當元件儲存於輸入商業記錄136中。例如,基於以上詳述之示例規則,字串值999-999-9999滿足用於美國電話號碼之準則。此值將寫入至輸入商業記錄136中之電話號碼欄位。
經由使用應用特定規則(例如處理規則清單126),程序100能夠維持靈活及非確定性的實施,該實施滿足該程序之不同終端用途的需求。藉助於此等規則,程序100能夠探索滿足特徵集合之特定類型的實體(例如商業實體),該特徵集合可以對程序100之每次獨立執行為特定的方式來定義。
輸入商業記錄136為用來儲存步驟130中所找到 及搜集之資料的資料建造體。每一記錄係由資料元件清單165中所定義之資料元件組成。資料元件清單165基本上為用於一實體之主要組件之容器,在商業記錄情況下,該等組要組件諸如名稱、地址以及電話號碼。
在步驟135中,使用搜尋技術中熟知的方法並使用輸入商業記錄136作為輸入值,將所獲得之記錄資料之每一元件剖析為其子組件,加以淨化、規範化且標準化。使用參考資料清單146中之參考資料,剖析輸入商業記錄136中之資料元件中每一者的值。在剖析每一元件時,基於資料元件清單165來識別對諸如商業之實體為特定之組件集合。此等組件提供相關商業特徵之洞察力;作為用於商業實體之一實例,此可包括企業結構及實體位置(地址)。例如,基於參考資料清單146中之參考資料將位址組件標準化。亦將資料之不需要的值淨化,該等不需要的值例如通常稱為「雜訊」之空白、多餘標點或其他字元或字元集合;所得元件值為應用可用之商業資訊。將經修改資料寫出至輸出商業記錄137。輸出商業記錄137為與如由資料元件清單165所定義之輸入商業記錄136相同之結構。
以下為參考資料之一種形式的樣本,該形式可在清單146中找到,但是不包括該清單中參考資料之所有可能的類型。
輸入商業記錄清單136中之一樣本輸入商業記錄為:
輸出商業記錄清單137中資料經剖析、淨化、規範化以及標準化之輸出商業記錄隨即為:
參考資料清單146為步驟135中所使用之參考資料的集合。參考資料清單146含有字串符記及地理參考資料。在步驟135之剖析階段,此等符記用來識別所搜集之資料中之關鍵資料元件。符記之一實例為「街道」。「街道」的存在將表示:資料元件為一地址。
參考資料清單146中之符記亦含有不需要的值。淨化程序自資料元件清單165中之值搜尋並移除此等符記。不需要的符記之實例為誤用字組。
在步驟135之標準化操作中使用參考資料清單146中之地理參考資料例如來修改地址資料,以便與本地郵政標準相符合。標準化資料產生地址資料之更一致表示。
在以下實例中,原始非標準化值缺少郵政編碼且具有不完整之街道地址。步驟135中之標準化程序將原始地址與參考資料清單146中所儲存之參考資料相比較且輸出完整的地址輸出商業記錄清單137。
在步驟140中(在輸入商業記錄136中之資料如上所述獲淨化、標準化以及寫出至輸出商業記錄137之後),確定關於輸出商業記錄137之狀態,該狀態限定後續動作。輸出商業記錄137及接續動作處理規則清單148為步驟140中所使用之輸入。
處理規則清單148包括:(A)處理規則之集合,該集合用來確定對輸出商業記錄137執行之下一動作集合,以及(B)程序100中採取之下一邏輯步驟。例如,接續動作處理規則清單148中之一規則類型為記錄驗證規則之集合。處理規則清單148如上所述亦可包括演算法、試探法或其他分析方法。
實際驗證規則及準則不限於一特定實施例之每一實行方案,但對其為特定的。可能的規則之一實例為:「驗證規則1:商業名稱、街道、城市、郵政編碼以及電話號碼必須做填充。」
若輸出商業記錄137通過接續動作處理規則清單148之驗證規則集合,即將該輸出商業記錄寫出至單一來源記錄清單141。
單一來源記錄清單141儲存輸出商業記錄137之所有經驗證示例。單一來源蘊含的是:針對來自URL來 源之每一經存取及選擇之記錄來留存單獨的資料記錄經。在程序100中之此點,每一輸出商業記錄137為一單一來源記錄,其複製至新詢問資料值清單147。因此,輸出商業記錄清單137中之每一輸出商業記錄及新詢問資料值清單147中之新詢問資料值含有來自唯一一個網站之資料。在單一來源記錄清單141中,可存在表示相同商業之多個記錄,但是資料之來源可不同。單一來源記錄清單141之一示範性視圖如下: 在以上實例中,記錄1具有來自唯一一個網站www.companylisting.com之商業資訊。雖然記錄2可指代相同商業,但是其資訊係搜集自www.abccompany.com。每一記錄僅具有作為其資料之來源的單一網站。
在執行程序100之步驟130、135以及140的過程期間,可找到與商業記錄相關之新來源URL;將此等新來源URL寫出至新詢問資料值清單147。僅將尚未訪問之URL寫入至新詢問資料值清單147。新詢問資料值清單147在結構上與種子來源清單111等同且含有要在程序100中進一步檢查之網站。
實例:
‧來源網站www.companylisting.com為種子來源清單111中之原始網站。
‧在讀取www.companylisting.com上之資料的過程中,商業「ABC公司」係與其相關聯之網站www.ABC-Company.com一起找到。
‧www.ABC-Company.com寫出至新詢問資料值清單147。
在步驟140中,基於程序100中進行至此點時對所擷取及所分析之資料的評估,確定程序100中之接續步驟。用來確定額外資料之存在的準則為應用特定的且如在以下條件及步驟中所述來確定。一些實例包括但不限於額外商業名稱條目及/或與額外網站之連結的存在,該等額外網站可具有額外相關資料。此等應用特定條件及準則係儲存於接續動作處理規則清單148中。
處理規則清單148係由處理規則之集合組成,該等處理規則用來確定對記錄137執行之下一動作集合以及在該程序中採取之下一邏輯步驟。處理規則清單148中之 兩個示範性規則類型為記錄驗證規則之集合或評估網站使用條件之程序。方法140使用此等規則來驗證記錄137中之資料以便確認完整商業記錄之存在。驗證規則及準則之數目為應用特定的。
處理規則清單148亦可具有用來防止程序100繼續而無任何終止之規則。程序100例如可在已經過自該程序開始算起一固定量之時間後終止,或在已執行給定數目之CPU操作之後終止。
存在將確定後續動作之多個潛在條件。在此實例中描述兩個條件。條件1有關於以下情形,其中:可存在要自初始URL或在執行程序100期間所探索之額外URL存取之更多相關資料。條件2有關於以下情形,其中:不存在要於初始URL或額外URL上找到之更多相關資料。
就條件1而言,在步驟150處,存在要自當前網站讀取之額外資料。程序100藉助於步驟149循環回至步驟130,其中針對下一記錄檢閱正接受檢查之網站。此循環將重複直至不存在要自當前正接受檢查之網站讀取之額外資料。
繼續條件1,經由步驟149至步驟130之此循環為所揭示實施例之開放、徹底以及重複本質之一組件。此重複允許程序100在本質上將為非確定性的,以使得不需要正接受檢查之網站的先前知識或網站探索之前存在的商業實體數目的先前知識。
繼續條件1,在經由步驟149至步驟130之每一 循環執行中,單一來源記錄清單141及新詢問資料值清單147係維持於資料儲存媒體中,該等資料儲存媒體留存在經由步驟149至步驟130之每一先前循環執行期間所搜集之所有資訊。單一來源記錄清單141具有在探索階段期間隨附於該單一來源記錄清單之額外商業記錄,如以上相對於圖1所述。新詢問資料值清單147具有在資料探索階段期間隨附於該新詢問資料值清單之額外URL。單一來源記錄清單141及新詢問資料值清單147中之資料用作至149至步驟130之循環的輸入,直至整個程序100完成且無其他資料可自網站讀取,如以下在條件2中所述。
就條件2而言,程序100自步驟140進展至步驟150。若在步驟150處做出全部資料已自當前正接受檢查之網站讀取之確定,則程序100隨後自步驟150進展至步驟160。
繼續條件2,在步驟160中,完成對當前正接受檢查之網站的訪問,且關閉去往當前正接受檢查之網站的連接。在步驟160完成之後,程序100進展至步驟161,其中做出關於種子來源111中之所有網站是否已獲檢查之確定。若種子來源清單111中之所有網站尚未獲檢查,則程序100進展至步驟151,其中打開去往種子來源清單111中之下一網站的連接。程序100前進回至步驟110。
在此點,存在多個潛在子條件。在此實例中,描述確定後續動作之兩個潛在子條件(以下稱為條件2A及條件2B)。步驟之下一進展係基於此等條件中之一者來確定。
就條件2A而言,若已訪問種子來源清單111中之所有原始來源網站,程序100即自步驟161進展至步驟162。在步驟162中,最初做出關於是否有新詢問資料(例如URL)添加至新詢問資料值清單147之確定。若新詢問資料添加至新詢問資料值清單147,程序100即進展至步驟154,從而將再次調用程序100至步驟110來使用新詢問資料值清單147中之資料作為輸入來訪問另一網站。在步驟110之此調用中,新詢問資料值清單147基本上起到先前種子來源清單111所起到之作用。返回至步驟110之此循環為所揭示實施例之重複本質的另一組件。重複此循環允許該程序在本質上將為非確定性的,以使得不需要網站的先前知識或網站探索前存在的商業實體數目的先前知識。執行搜尋循環,將單一來源記錄清單141及新詢問資料值清單147維持在資料儲存媒體之各部分上,該等部分留存在經由步驟154之循環之每次進展期間所搜集之所有資訊。單一來源記錄清單141如上所述具有在此探索階段期間隨附於該單一來源記錄清單之額外商業記錄。新詢問資料值清單147如上所述具有在此探索階段期間隨附於該新詢問資料值清單之額外URL。資料繼續住留於單一來源記錄清單141及新詢問資料值清單147中。單一來源記錄清單141及新詢問資料值147中之資料在步驟110用作程序100之輸入,直至在步驟162處做出新詢問資料值已添加至新詢問資料值清單147之確定。此舉以遞迴及窮舉方式繼續直至不存在將要處理之其他URL,如由以下條件2B所述。
就條件2B而言,種子來源清單111中之所有原始來源網站已獲檢查且來自新詢問資料值清單147之所有新詢問資料(若存在)亦已獲檢查。程序100進展至子程序300。
以下參照圖2描述子程序300。在完成子程序300之後,程序100進展至步驟170,在該步驟處程序100結束。
圖2為子程序300之方塊圖,該方塊圖詳述一種方法,該方法用以分析及評估在上述程序100之資料探索部分(圖1)期間所探索之資料以便將該等資料變換成可公佈之資料。子程序300以如程序100中所探索的可能相關但是尚未關聯之資料記錄的集合開始。子程序300產生用以每一條資料之獨特關鍵字且隨後確定非關聯資料元件之間的關聯性。經由基於規則之查核程序,子程序300建立資料元件之間的關係,且基於預定義準則將實體分組為群集。此等群集隨後綜合為一序列獨特單一實體,該等單一實體中每一者表示該群集之元件值中的「最佳視圖」(如由應用特定的商業規則所確定)。
在步驟301中,子程序300以來自單一來源記錄清單341之一記錄讀取為輸入值而起始。單一來源記錄清單341為單一來源記錄之資料庫,該等單一來源記錄係在執行程序100之後搜集。該單一來源記錄清單中之記錄具有輸入商業記錄136(圖1)中之記錄形式,例如呈以下形式:
在步驟302中,自商業記錄清單346(單一商業記錄清單)中之商業記錄讀取呈資料元件清單165(圖2)形式之資料元件360。針對商業記錄清單346中之資料元件360中之每一欄位產生匹配關鍵字。匹配關鍵字為一識別符,其獨特地識別資料元件之上下文值。例如,「ABC公司」及「Abc公司」為不同的位元對位元字串。然而,就上下文而言,「ABC公司」與「Abc公司」為相同名稱。此種評估亦可藉由檢查同義字、替代名稱樣式或其他可允許之變換來做出。針對此等兩個值所產生之匹配關鍵字可為相同的。下表呈現具有相同匹配關鍵字之記錄及具有如由「名稱匹配關鍵字」行所指示之獨特匹配關鍵字之記錄的實例。
在步驟302中,匹配關鍵字連同商業記錄清單346中之原始資料一起寫出至匹配關鍵字清單342。
在步驟303中,做出關於商業記錄清單346中是否存在任何額外記錄之確定。若存在額外記錄,即經由步驟304執行循環且針對下一記錄產生匹配關鍵字。在經由步驟304執行循環中,將要讀取之下一記錄在步驟301中獲讀取。當單一來源記錄清單341中之所有記錄均已獲讀取且已針對其產生匹配關鍵字時,子程序300即在步驟303處自循環退出並進展至步驟305。
在步驟305中,使用匹配關鍵字清單342作為輸入,將匹配記錄基於其匹配關鍵字來分組為群集。為每一分組指定一群集識別碼,該群聚識別碼稱為群集ID。將指定群集ID之每一記錄連同其群集ID一起寫出至群聚記錄清單343。
在以上實例中,因為「ABC公司」與「Abc公司」具有相同的匹配關鍵字,所以此二者係指定相同的群聚ID。「John Doe,Inc」與「MyCorp」兩者均不與任何其他記錄匹配。因此,其皆未經指定群聚ID。
群聚記錄清單343含有在步驟305處所產生之群集。群聚記錄清單343中之每一記錄含有單一商業記錄及與該單一商業記錄相關聯之群集ID。
群聚記錄清單343中之兩個群聚之實例為:
子程序300接著自步驟305進展至步驟306,其中群聚記錄清單343及優先規則清單344中之優先規則作為輸入獲接收。
在步驟306中,藉助於優先規則清單344中之優先規則將群聚記錄集合合併為單一複合記錄。此合併程序針對所搜集之每一資料元件選擇最需要之值。步驟306之此合併程序可能係基於來源及程序100之資料探索部分(圖1)中進行的實體探索而做出。當探索每一實體時,擷取來源網站資訊,包括關於該網站之元資料。隨著找到每一新的元資料集合,即探索關於可利用資料之來源的一條新資訊。此元資料結合優先規則清單344中之優先規則用來做出關於自各種子來源所搜集之資料之品質的判斷,且用來確定群聚記錄中之資料的最佳視圖。
關於來源網站之共同元資料之一實例為用來描述去往搜尋引擎之網站的HTML標籤。用來識別記錄來源之HTML標籤之實例可為「商業貿易目錄」、「黃頁」或「在線電話薄」。
另外,優先規則清單344中之規則指定關於哪些網站可用來確證所探索資料之真實性的準則。基於特定商業應用,基於優先規則清單344,一些網站可具有足夠的可信度來確認另一網站之真實性。例如,一電話公司之網站可視為電話號碼之權威來源且可確認在非電信網站上所找到之電話號碼之真實性。
以下為優先規則清單344中之優先規則可如何使用之一實例。
實例:規則1:一已知電信網站將視為電話號碼之主要權威機構。
基於「規則1」及以上樣本記錄,來自yellowpages.com之電話號碼將視為最可靠值。所得複合記錄可為:
在不存在針對一給定元件之任何優先規則時,可利用預設選擇,其中步驟306之合併程序自群集中之第一記錄選擇值。將該等值寫入至複合記錄資料元件365。要注意,記錄佈置在資料元件360中之方式與佈置在複合記錄資料元件365中之方式不一定存在不同。複合記錄資料元件365係寫出至多來源記錄清單345。
多來源記錄清單345保存所有多來源記錄。多來源記錄為其中商業資料係在至少兩個來源網站上找到之記錄。一旦所有群集在步驟306處獲讀取及處理,子程序300即移動至步驟307,其中子程序300完成且控制返回至程序100。在程序100之步驟170之後,由所揭示之實施例所提供之結果可儲存、寫入及/或公佈。作為實例,該等結果可歸檔於資料庫中,寫入至資料庫、用來產生報告或公佈至 調入程序100之一呼叫應用。該等結果可用於任何或所有此等目的或其他目的,且利用該等結果之方法為應用特定的且獨立於由所揭示實施例所產生之結果的預期未來用法。
圖3為用以本發明之使用之系統400的方塊圖。系統400包括電腦405,其耦接至例如網際網路之網路420。
電腦405包括使用者介面410、處理器415以及記憶體425。電腦405可在通用微電腦上實施。雖然電腦405在本文中表示為獨立裝置,但是其不限於此,而是可經由網路420耦接至其他裝置(未圖示)。
處理器415經組配具有回應及執行指令之邏輯電路。
記憶體425儲存用以控制處理器415之操作之資料及指令。記憶體425可在隨機存取記憶體(RAM)、硬碟機、唯讀記憶體(ROM)或其組合中實施。記憶體425之組件中之一者為程式模組430。
程式模組430含有用以控制處理器415來執行本文所述之方法的指令。例如,作為執行程式模組430之結果,處理器415(a)檢查在初始搜尋目標之集合中所找到之資料;(b)將來自初始搜尋目標之與詢問相關之資料及指定將要搜尋之額外搜尋目標之資料儲存於資料儲存裝置中;(c)搜尋該等額外搜尋目標中與該詢問相關之資料及指定將要搜尋之其他搜尋目標之資料;以及(d)將來自其他搜尋目標之與該詢問相關之資料及指定其他搜尋目標之資料儲存 於資料儲存裝置中。
「模組」一詞在本文中用來表示功能操作,該功能操作可體現為獨立組件或多個從屬組件之整合組態。因此,程式模組430可實施為單一模組或彼此協同操作之多個模組。此外,雖然程式模組430在本文中描述為安裝於記憶體425中,且因此在軟體中實施,但是該程式模組可在硬體(例如電子電路)、韌體、軟體中任一者或其組合中實施。
使用者介面410包括用以允許使用者將資訊及命令選擇傳達至處理器415之輸入裝置,諸如鍵盤或語音辨識子系統。使用者介面410亦包括諸如顯示器或印表機之輸出裝置。諸如滑鼠、跟蹤球或操縱桿之游標控制允許使用者在顯示器上操縱游標,用以將額外資訊及命令選擇傳達至處理器415。
處理器415將執行本文所述之方法的結果輸出至使用者介面410。或者,處理器415可經由網路420將輸出引導至遠程裝置(未圖示)。
雖然程式模組430經指示為已載入至記憶體425中,但是該程式模組可組配在儲存媒體435上,用以後續載入至記憶體425中。儲存媒體435可為任何習知儲存媒體,該儲存媒體上以有形形式儲存有程式模組430。儲存媒體435之實例包括軟碟、光碟、磁帶、唯讀記憶體、光學儲存媒體、通用串列匯流排(USB)快閃驅動器、數位多樣化光碟或壓縮磁碟。或者,儲存媒體435可為定位於遠程儲 存系統上且經由網路420耦接至電腦405之隨機存取記憶體或其他類型的電子儲存器。
因此,本發明之實施例改良現存之探索式產品及能力,此包括但不限於以下任一者或全部:(1)在訪問全球資訊網及其他資料源之前藉以處置詢問之程序,(2)就詢問之情境藉以訪問全球資訊網及其他來源之程序,(3)藉以將詢問資料與全球資訊網及其他來源上之資料相比較以便識別、評估、管理、判定以及選擇記錄之程序,該等記錄含有確定為類似於該詢問之資料及與此等資料相關之元資料,(4)藉以維持及鑑定關於探索程序及來源之資訊的程序,(5)藉以使用來自所探索來源之資料及元資料來經由遞迴程序存取其他資料源之程序,(6)藉以可進一步管理、判定以及綜合所得資料之程序,包括最初在新資料庫或現存資料庫上進行填充以及更新資料,以及(7)藉以鑑定包括資料及元資料之所探索結果來確定該詢問與所探索結果之間的相對相似性之程序,該等所探索結果包括用來做出此確定之資料,該等資料可隨後提供至詢問者或詢問系統以便確定是否使用及如何使用該等結果。
為滿足此等需求,本發明提供一種方法,該方法包括但不限於以下任一者或全部:(a)接收一詢問來起始針對商業身分及相關資訊之探索程序,(b)基於該詢問來確定一或多個遞迴策略,以便基於該詢問中所含有之特定資料來訪問全球資訊網及其他資料源,(c)根據該策略遞迴地存取及分析全球資訊網及其他資料源上之資料中類似於該詢 問之資料,(d)判斷資料及相關元資料之精確度並對其進行鑑定,以及(e)輸出關於該程序之資料結果、回饋以及其他相關資訊,藉由該程序可存取且確定有價值之資料。本發明亦提供一種執行該方法之系統,及一種含有控制一處理器來執行該方法之指令的儲存媒體。
本文所述之技術為示範性的,且不應理解為蘊含對本揭示案之任何特定限制。應理解的是,熟習此項技術者可設想各種替代方案、組合以及修改。例如,除非另外指出或由步驟本身所規定,否則與本文所述之程序相關聯之步驟可以任何次序執行。本揭示案意欲涵蓋所有此等替代方案、修改以及變化。
100‧‧‧程序
101、110、130、135、140、149~151、154、160~162、170‧‧‧步驟
111‧‧‧種子來源清單
126‧‧‧處理規則清單
136‧‧‧輸入商業記錄
137‧‧‧輸出商業記錄清單
141‧‧‧單一來源記錄清單
146‧‧‧參考資料清單
147‧‧‧新詢問資料值清單
148‧‧‧接續動作處理規則清單/處理規則清單
165‧‧‧資料元件清單
300‧‧‧子程序

Claims (24)

  1. 一種用以搜尋與一詢問相關之資料的系統,該系統包含:一儲存裝置,其含有種子來源之一清單,該等種子來源指定用於該詢問之初始搜尋目標;一搜尋引擎,其基於自該等初始搜尋目標及任何先前額外搜尋目標識別之資料及元資料來搜尋該等初始搜尋目標中與該詢問相關之資料;該儲存裝置儲存來自該等初始搜尋目標及任何額外搜尋目標之該等資料及元資料;並且其中該搜尋引擎至少搜尋該等額外搜尋目標中與該詢問相關之額外資料及指定其他額外搜尋目標之資料及元資料。
  2. 如請求項1之系統,其中當該搜尋引擎搜尋該等額外搜尋目標且找到其他搜尋目標時,將指定該等其他搜尋目標之資料及任何相關元資料儲存於該儲存裝置中以由該搜尋引擎在存取該等其他目標中使用。
  3. 如請求項1之系統,其中搜尋額外搜尋目標並找到其他搜尋目標,直至對額外搜尋目標之該搜尋不再產生待搜尋之其他搜尋目標,或直至已滿足可接受之判定規則或例外規則。
  4. 如請求項1之系統,其中其他搜尋目標係經由一遞迴及窮舉程序而找到,藉由該程序並基於來自先前搜尋及搜 尋目標之結果的資料及元資料來識別搜尋目標。
  5. 如請求項1之系統,其中該搜尋引擎係組配來搜尋網站或其他來源,且種子來源之該清單為網站或其他來源之一清單。
  6. 如請求項1之系統,其中該處理器係組配來淨化自每一搜尋目標所獲取之資料。
  7. 如請求項6之系統,其中該處理器係組配來藉由包括以下至少一者之步驟來淨化資料:剖析該等資料、移除該等資料之錯誤值或不適當值,以及自該等資料移除預定符記。
  8. 如請求項1之系統,其進一步包含一處理器,該處理器係組配來藉由執行包含以下之步驟對給定資料執行資料驗證:比較來自已搜尋到之搜尋目標之該等給定資料,以及基於優先規則及使用規則之一集合來自視為最可靠及最可用之一來源選擇有效資料。
  9. 如請求項1之系統,其進一步包含一處理器,該處理器係組配來管理、判定、綜合及群聚來自不同搜尋目標之相關資料以便形成群聚資料記錄。
  10. 如請求項9之系統,其中該處理器係組配來自該等群聚資料記錄產生一複合資料記錄。
  11. 一種用以搜尋與一詢問相關之資料的方法,該方法包含: 檢查在初始搜尋目標之一集合中所找到之資料;將來自該等初始搜尋目標之(a)與該詢問相關之資源及元資料中之至少一者及(b)指定將要搜尋之額外搜尋目標之資料及元資料中之至少一者儲存於一儲存裝置中;搜尋該等額外搜尋目標中(a)與該詢問相關之資源及元資料中之至少一者及(c)指定將要搜尋之其他搜尋目標之資料及元資料中之至少一者;以及將來自該等其他搜尋目標之(a)與該詢問相關之資源及元資料中之至少一者及(c)指定該等其他搜尋目標之資料及元資料中之至少一者儲存於該儲存裝置中。
  12. 如請求項11之方法,其中在搜尋該等額外搜尋目標時,若找到其他目標,則該方法進一步包含:使用(c)指定該等其他搜尋目標之資料及元資料中之至少一者來存取該等其他目標;以及將來自該等其他搜尋目標之(a)與該詢問相關之資源及元資料中之至少一者及(d)指定將要搜尋之其他搜尋目標之資料及元資料中之至少一者儲存於該儲存裝置中。
  13. 如請求項11之方法,其中在搜尋額外搜尋目標並找到指定其他搜尋目標之資料及元資料中之至少一者時,該方法在對其他搜尋目標之該搜尋不再產生待搜尋之搜尋目標時終止。
  14. 如請求項11之方法,其中該搜尋引擎係組配來搜尋網 站或其他來源,且種子來源之清單為網站或其他來源之一清單。
  15. 如請求項11之方法,其進一步包含淨化自一搜尋目標所獲取之資料。
  16. 如請求項15之方法,其中資料之該淨化係藉由包括以下之步驟執行:剖析該等資料、移除該等資料之錯誤值,以及自該等資料移除預定符記。
  17. 如請求項11之方法,其進一步包含藉由執行包含以下之步驟來對資料執行資料驗證:比較來自已搜尋到之各種來源之該等資料,以及基於優先規則之一集合來自視為最可靠之一來源選擇有效資料。
  18. 如請求項11之方法,其進一步包含管理、判定、綜合及群聚來自不同來源之相關資料以便形成群聚資料記錄。
  19. 如請求項18之方法,其進一步包含自群聚資料記錄之集合產生複合多來源資料記錄。
  20. 如請求項11之方法,其進一步包含執行選自由以下所組成之群中之至少一者:寫入一資料庫、歸檔於一資料庫中、產生一報告以及公佈藉由搜尋與該詢問相關之資料而找到的結果。
  21. 如請求項11之方法,其進一步包含應用選自由以下所組成之群中之至少一者的一分析方法:規則、演算法、試探法以及其他分析功能,以便做出關於該等資料之決 策以及關於繼續該方法或終止該方法之一決策。
  22. 一種儲存一電腦程式之指令的電腦可讀非暫時性儲存媒體,當該電腦程式在由一電腦系統執行時,引起以下步驟的執行:檢查在初始搜尋目標之一集合中所找到之資料;將來自該等初始搜尋目標之(a)與該詢問相關之資源及元資料中之至少一者及(b)指定將要搜尋之額外搜尋目標之資料及元資料中之至少一者儲存於一儲存裝置中;搜尋該等額外搜尋目標中(a)與該詢問相關之該等資源及元資料中之至少一者及(c)指定將要搜尋之其他搜尋目標之資料及元資料中之至少一者;以及將來自該等其他搜尋目標之(a)與該詢問相關之資源及元資料中之至少一者及(c)指定該等其他搜尋目標之資料及元資料中之至少一者儲存於該儲存裝置中。
  23. 如請求項22之電腦可讀非暫時性儲存媒體,其儲存一電腦程式之額外指令,當該電腦程式在由該電腦系統執行時,引起以下步驟的執行:使用(c)指定該等其他搜尋目標之資料及元資料中之至少一者來存取該等其他目標;以及將來自該等其他搜尋目標之(a)與該詢問相關之資源及元資料中之至少一者及(d)指定將要搜尋之其他搜尋目標之資料及元資料中之至少一者儲存於該儲存裝置中。
  24. 如請求項23之電腦可讀非暫時性儲存媒體,其儲存一電腦程式之額外指令,當該電腦程式在由該電腦系統執行時,在搜尋額外搜尋目標並找到指定其他搜尋目標之資料及元資料中之至少一者時,重複執行該方法直至對其他搜尋目標之該搜尋不再產生待搜尋之搜尋目標,或已滿足可接受之判定規則或例外規則。
TW102136326A 2012-10-09 2013-10-08 用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法 TWI556180B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201261711673P 2012-10-09 2012-10-09

Publications (2)

Publication Number Publication Date
TW201421395A true TW201421395A (zh) 2014-06-01
TWI556180B TWI556180B (zh) 2016-11-01

Family

ID=50433541

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102136326A TWI556180B (zh) 2012-10-09 2013-10-08 用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法

Country Status (6)

Country Link
US (1) US9390176B2 (zh)
CN (1) CN104769585B (zh)
AU (1) AU2013329525C1 (zh)
HK (1) HK1211720A1 (zh)
TW (1) TWI556180B (zh)
WO (1) WO2014058805A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8788405B1 (en) 2013-03-15 2014-07-22 Palantir Technologies, Inc. Generating data clusters with customizable analysis strategies
US9965937B2 (en) * 2013-03-15 2018-05-08 Palantir Technologies Inc. External malware data item clustering and analysis
US9412070B2 (en) * 2013-10-10 2016-08-09 International Business Machines Corporation Automatically deriving context when extracting a business rule
US10078668B1 (en) * 2014-05-04 2018-09-18 Veritas Technologies Llc Systems and methods for utilizing information-asset metadata aggregated from multiple disparate data-management systems
US10635645B1 (en) 2014-05-04 2020-04-28 Veritas Technologies Llc Systems and methods for maintaining aggregate tables in databases
US9202249B1 (en) * 2014-07-03 2015-12-01 Palantir Technologies Inc. Data item clustering and analysis
US20160019284A1 (en) * 2014-07-18 2016-01-21 Linkedln Corporation Search engine using name clustering
WO2016075836A1 (ja) * 2014-11-14 2016-05-19 富士通株式会社 データ検証プログラム、データ検証方法及びデータ検証装置
US9367872B1 (en) 2014-12-22 2016-06-14 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
US11429679B1 (en) * 2015-07-17 2022-08-30 EMC IP Holding Company LLC System and method for augmenting element records associated with the elements of a distributed computing environment with user-defined content
US10489391B1 (en) 2015-08-17 2019-11-26 Palantir Technologies Inc. Systems and methods for grouping and enriching data items accessed from one or more databases for presentation in a user interface
CN105574172A (zh) * 2015-12-17 2016-05-11 北京锐安科技有限公司 一种数据分析方法及分析系统
CN108334529A (zh) * 2017-03-31 2018-07-27 北京安天网络安全技术有限公司 一种利用已公开大数据获取攻击者信息的方法及系统
CA3072444A1 (en) * 2017-08-10 2019-02-14 The Dun & Bradstreet Corporation System and method for dynamic synthesis and transient clustering of semantic attributions for feedback and adjudication
CN109684429B (zh) * 2018-12-18 2022-06-21 南京云灿信息科技有限公司 一种基于三维数字地球的低空飞行目标识别系统及算法
US10922337B2 (en) * 2019-04-30 2021-02-16 Amperity, Inc. Clustering of data records with hierarchical cluster IDs
CN110309382B (zh) * 2019-06-17 2021-05-28 暨南大学 基于多维特征的移动应用同源性边聚类方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
EP1567956A4 (en) * 2002-11-08 2007-12-05 Dun & Bradstreet Inc SYSTEM AND METHOD FOR BROWSING AND COMPARING DATA BANKS
US20050278309A1 (en) * 2004-06-02 2005-12-15 Perry Evans System and method for mining and searching localized business-marketing and informational data
US7693901B2 (en) * 2005-08-10 2010-04-06 Microsoft Corporation Consumer-focused results ordering
US20070288256A1 (en) 2006-06-07 2007-12-13 Speier Gary J Patent claim reference generation
US20080104542A1 (en) * 2006-10-27 2008-05-01 Information Builders, Inc. Apparatus and Method for Conducting Searches with a Search Engine for Unstructured Data to Retrieve Records Enriched with Structured Data and Generate Reports Based Thereon
US8745041B1 (en) * 2006-12-12 2014-06-03 Google Inc. Ranking of geographic information
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US20080306933A1 (en) 2007-06-08 2008-12-11 Microsoft Corporation Display of search-engine results and list
US8166013B2 (en) * 2007-11-05 2012-04-24 Intuit Inc. Method and system for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US20120016857A1 (en) * 2010-07-16 2012-01-19 Levi Gross System and method for providing search engine optimization analysis
US8799262B2 (en) * 2011-04-11 2014-08-05 Vistaprint Schweiz Gmbh Configurable web crawler
US8849826B2 (en) * 2011-09-30 2014-09-30 Metavana, Inc. Sentiment analysis from social media content

Also Published As

Publication number Publication date
US20140101124A1 (en) 2014-04-10
AU2013329525B2 (en) 2016-08-25
AU2013329525C1 (en) 2017-03-02
HK1211720A1 (zh) 2016-05-27
TWI556180B (zh) 2016-11-01
AU2013329525A1 (en) 2015-04-23
WO2014058805A1 (en) 2014-04-17
US9390176B2 (en) 2016-07-12
CN104769585B (zh) 2018-02-13
CN104769585A (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
TWI556180B (zh) 用以遞迴檢閱網際網路及其他來源以識別、收集、管理、判定及鑑定商業身分與相關資料之系統及方法
JP7512402B2 (ja) データフィールドの意味論的ラベルからのデータフィールドのデータ処理値に対するルールの生成
US11704494B2 (en) Discovering a semantic meaning of data fields from profile data of the data fields
Silva et al. Topic modeling in software engineering research
US7912816B2 (en) Adaptive archive data management
Gottipati et al. Finding relevant answers in software forums
Dijkman et al. Identifying refactoring opportunities in process model repositories
EP2289007B1 (en) Search results ranking using editing distance and document information
US7562088B2 (en) Structure extraction from unstructured documents
Kalashnikov et al. Web people search via connection analysis
US20080162455A1 (en) Determination of document similarity
US10095766B2 (en) Automated refinement and validation of data warehouse star schemas
US20120303661A1 (en) Systems and methods for information extraction using contextual pattern discovery
US20200320153A1 (en) Method for accessing data records of a master data management system
CN107844533A (zh) 一种智能问答系统及分析方法
Jiang et al. Holistic primary key and foreign key detection
US10360239B2 (en) Automated definition of data warehouse star schemas
US9400826B2 (en) Method and system for aggregate content modeling
Guo et al. Cold-start software analytics
JP2018198046A (ja) 金融イベント・データベースの生成のための装置および方法
Cagliero et al. Discovering cross-topic collaborations among researchers by exploiting weighted association rules
Shah et al. Bridging task expressions and search queries
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
Schomm Profiling data and beyond: gaining insights from metadata
CA3145535A1 (en) System and method for data profiling