TWI549006B - 資料集和資料服務的上下文趨向 - Google Patents

資料集和資料服務的上下文趨向 Download PDF

Info

Publication number
TWI549006B
TWI549006B TW101138922A TW101138922A TWI549006B TW I549006 B TWI549006 B TW I549006B TW 101138922 A TW101138922 A TW 101138922A TW 101138922 A TW101138922 A TW 101138922A TW I549006 B TWI549006 B TW I549006B
Authority
TW
Taiwan
Prior art keywords
data set
structured data
attribute
structured
user
Prior art date
Application number
TW101138922A
Other languages
English (en)
Other versions
TW201322024A (zh
Inventor
海蒂艾芬
伊肯斯克利斯多佛凱利
Original Assignee
微軟技術授權有限責任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 微軟技術授權有限責任公司 filed Critical 微軟技術授權有限責任公司
Publication of TW201322024A publication Critical patent/TW201322024A/zh
Application granted granted Critical
Publication of TWI549006B publication Critical patent/TWI549006B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/213Schema design and management with details for schema evolution support

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Description

資料集和資料服務的上下文趨向
本發明係關於資料探查,尤其係關於資料集和資料服務的上下文趨向。
資料分析員和其他人處理以各種方式和範圍組織的各種各樣的數位資料。一些資料值是孤立的,此意味著該等資料值不屬於(或至少不被視作屬於)一組相關資料值。但許多資料值是資料值的集合的一部分。一些集合具有極少或不具有內部結構,但其他集合被組織成促進諸如特定值的檢索、值比較和基於集合中的多個值的計算匯總等操作。
資料值的有組織集合在此被稱為「資料集」(亦被稱為「資料集合」、「結構化資料」、「結構化資料集」)。因為資料集中的資料被結構化,所以能夠比僅僅敘述該資料的值及該資料在資料集合中的成員關係更多地談論該資料。在例如試算表資料集中,給定資料片段不僅具有值和該組試算表值中的成員關係,而且亦具有相關聯的行和列,此可以進而具有諸如名稱和資料類型等特性。出於呈現目的,「結構化資料」的一些熟悉的實例包括關聯式資料庫記錄、試算表、表和陣列。相反,電子郵件或文字處理文件中的文字一般是非結構化資料或缺少標準內部結構。結構化資料可經由鍵入來被手動放置在資料集中,但計算能力 可提供向資料集合添加值、改變資料集合中的值和以其他方式管理資料集的一定範圍的其他可能性。
經由web瀏覽或經由資料集搜尋來找到結構化資料的可能的增強和糾正是具有挑戰性的,並且可使得使用者從分析使用者結構化資料分心。然而,本文描述的一些實施例提供了一種預動式結構化資料集管理,此種預動式結構化資料集管理給予資料分析員和其他使用者其中預動建議增強和其他資料服務的「試用」體驗。與使用者的當前上下文相關的資料集及/或資料服務「趨向於」該上下文。相關資料集及/或資料服務的建議可基於諸如以下因素來做出:當前在使用者的上下文中的資料集和可以在該使用者的企業或其他地方的其他非本端資料集之間的計算出的相似性及/或關聯;屬於資料服務的期望目標的資料集屬性的識別。使用者無需線上或例如在企業檔案系統中檢視可能有幫助的資料集,而是能夠在安心地知道相關非本端資訊的建議將被自動提供給使用者的情況下改為保持聚焦於特定資料集。
在一些實施例中,結構化資料集管理包括獲取諸如試算表、報告產生器或web瀏覽器的實例等使用者工作上下文中的結構化資料集。結構化資料集具有至少一個類型化屬性,每一個類型化屬性皆具有列名稱和相關聯的資料類型。管理將結構化資料集強制轉換成具有至少一個與該結 構化資料集共同的類型化屬性的屬性取樣(samplex)。屬性取樣是經由計算從結構化資料集匯出的。除了具有至少一個與結構化資料集共同的類型化屬性之外,屬性取樣亦可共用屬性類別及/或儲存格值。然而,屬性取樣通常避免損害結構化資料集儲存格中的值的秘密性。在至少部分地基於屬性取樣或其他機制來識別至少一個匹配的資料集或服務之後,資料集管理使得匹配的資料集或資料服務趨向於使用者的上下文。受趨向的資料集可被簡單地查看並且隨後被丟棄,或者該資料集可用於做出對結構化資料集的預動式或使用者確認的修改,該修改至少部分地基於匹配的資料集。匹配的資料集亦是結構化的,但此處的「結構化資料集」通常代表使用者的原始結構化資料集。受趨向的資料服務可被應用於使用者的結構化資料集,並且結果可被查看、丟棄、暫時保存、永久保存、被合併到其他資料集中及/或以其他方式利用。
例如,資料集管理的趨向和其他態樣可經由添加匹配的資料集的至少一個類型化屬性來豐富結構化資料集。在某些但並非所有情況下,對添加的屬性的選擇至少部分地基於屬性頻繁項目集資訊,例如,經由對外部和本端資料集進行相關取樣來收集的模式成員關係和上下文集合頻率統計資訊。屬性頻繁項目集資訊指示哪些類型化屬性特性(名稱、資料類型)傾向於在相關資料集的某一全域中一起出現。相關集合的全域可以是例如使用者的部門中的某個人建立的所有資料集、使用者的企業在過去N個月中使 用的所有資料集、具有指定列名稱的所有資料集、已經用附加元資料來標記的所有資料集(該元資料指示此等資料集具備特定的所需品質,諸如品質、合時性、可信性或流行性)或感興趣的另一資料集全域。
作為另一實例,資料集管理可另選地或另外地藉由添加匹配的資料集中的至少一行及/或藉由向結構化資料集中的一行添加匹配的資料集的至少一個儲存格值來豐富使用者的結構化資料集。修改可另外地或另選地改變結構化資料集的至少一個儲存格值以便與匹配的資料集的儲存格值匹配(亦即,執行資料淨化)。淨化可包括經由趨向來將資料集與資料服務相匹配。在一些實施例中,修改可向使用者工作上下文添加匹配的資料集作為另一資料集,而不是在逐個儲存格、逐行及/或逐列的基礎上將匹配的資料集與原始結構化資料集混合。在某些情況下,匹配的資料集與結構化資料集共享實體,例如,兩個資料集可保存關於給定企業、人或其他實體的資訊。實體可以在主題方面進行共享,即使資料集不共用類型化屬性。
在一些實施例中,匹配的資料集識別經由計算在客戶端安全周界內進行,匹配的資料集是被帶到客戶端周界內的資料集。在某些情況下,匹配的資料集識別經由計算在客戶端安全周界內進行,但對應於匹配的資料集的資料集屬性取樣被帶到該客戶端周界內,而不是將匹配的資料集帶到該周界內。在某些情況下,經由在客戶端安全周界之外使用結構化資料集屬性取樣而不將結構化資料集本身帶 到該周界之外,匹配的資料集識別經由計算在客戶端安全周界外進行。然而,為了保護結構化資料集的儲存格值的秘密性,不將結構化資料集本身帶到客戶端周界外。作為對匹配資料集的此種使用的補充或替換,屬性取樣可用於將服務與結構化資料集相匹配。例如,一些實施例將屬性取樣與資料淨化服務相匹配。在某些情況下,將整個匹配的資料集帶到安全周界內是太麻煩或不切實際的,例如在存在許多匹配的資料集及/或匹配的資料集是大型的情況下。在某些情況下,包含要執行的演算法準則或代碼的服務篩檢程式被帶到使用者安全周界內,以便回頭向候選服務指示該服務的期望目標和使用者的上下文資料集之間的匹配有多好,而不在該安全周界外展示該使用者的資料。
在一些實施例中,經由計算來實施介面能力,此藉由用第一顏色顯示結構化資料集的儲存格值且同時用不同的第二顏色顯示作為所建議的修改的另一儲存格值。在一些實施例中,顏色用於指示存在所建議的修改,而不是用不同的顏色顯示建議。在一些實施例中,介面能力將儲存格值從第一值改為第二值,顯示第二值,並且隨後在不在顯示第二值之後鍵入第一值的情況下回退到第一值。在一些實施例中,介面能力顯示修改預覽,亦即使用者尚未接受的可能修改的結果的圖像。一些實施例包括此等介面能力中的兩個或全部三個,並且可包括以下論述的其他介面能力。
結構化資料集管理有時在來自實例(from-example)場景中進行。亦即,結構化資料集已經包括具有對應的類型化屬性以及填充行的一或多個儲存格值的至少一行。在來自實例場景中,建議及/或所建議的修改是在現有資料集的基礎上做出的-該現有資料集是從中獲取指導以做出修改建議的實例。例如,資料集管理可預動建議結構化資料集的附加屬性、結構化資料集的附加行、對至少一個儲存格值的改變、附加儲存格值及/或儲存格值刪除。
結構化資料集管理有時在從零開始(from-scratch)場景中進行,此意味著儘管結構化資料集包括至少一個類型化屬性,但使用者正從零開始建立資料集模式。例如,使用者的資料集(至今)可以不包含儲存格值。在該場景中,資料集管理可以在使用者工作上下文中至少部分地基於使用者輸入的屬性和屬性頻繁項目集資訊,經由計算來建議結構化資料集的附加屬性。
儘管上述內容中的大多數是從結構化資料集管理提供者的觀點來論述的,但應當理解,資料集管理的許多態樣亦可以從資料分析員或其他使用者的觀點來查看。例如,在某些情況下,資料分析員在使用者工作上下文中提供如所論述的結構化資料集,例如,包括具有對應的類型化屬性以及填充行的一或多個儲存格值的至少一行的資料集。結構化資料集可例如經由在實施例中的試算表應用中打開結構化資料集來提供。當資料集被打開時,該實施例自動追蹤(或被告知)試算表及/或其他應用活動,並自動 繼續建立屬性取樣,識別匹配的資料集、做出建議等。
在某些情況下,資料分析員在使用者工作上下文中藉由以執行以上論述的一或多個修改的方式操作計算系統來修改結構化資料集。修改可以至少部分地基於匹配的資料集,並且可以在不首先在使用者工作上下文中向計算系統顯式地識別匹配的資料集的情況下執行。具體而言,若使用者被企業雇用,則修改可藉由基於該企業的屬性頻繁項目集資訊添加至少一個類型化屬性來豐富結構化資料集。
在一些實施例中,資料分析員或其他使用者在提供結構化資料集之後接收到自動的結構化資料集修改建議,並接受該建議。隨後經由計算來實現所建議的修改,例如藉由添加行、改變儲存格值等。
在一些實施例中,資料分析員或其他使用者查看介面能力。例如,使用者可查看結構化資料集中的第一顏色的儲存格值,並同時查看不同的第二顏色的作為所建議的修改的另一儲存格值。使用者可將儲存格值從第一值改為第二值,查看第二值,並且隨後在不在查看第二值之後鍵入第一值的情況下回退到第一值。使用者可查看修改預覽,亦即使用者尚未接受的修改建議的結果的圖像。
在一些實施例中,資料分析員或其他使用者做出選擇及/或確認先前的選擇。例如,在某些情況下,使用者選擇客戶端安全周界以限制結構化資料集的分發,並且在某些情況下,該使用者確認先前對用於限制結構化資料集的分發的客戶端周界的人類或自動化選擇。在某些情況下,使用 者選擇資料淨化服務來建議對結構化資料集的儲存格值的改變,並且在某些情況下,該使用者確認先前對用於建議對結構化資料集的儲存格值的改變的資料淨化服務的人類或自動化選擇。在某些情況下,使用者選擇資料豐富服務來建議對結構化資料集的豐富,並且在某些情況下,該使用者確認先前對用於建議對結構化資料集的豐富的資料豐富服務的人類或自動化選擇。在某些情況下,使用者選擇共享實體資料集服務來建議與結構化資料集共享實體的資料集,並且在某些情況下,該使用者確認先前對用於建議與結構化資料集共享實體的資料集的共享實體資料集服務的人類或自動化選擇。
從體系結構觀點來看,用於管理結構化資料集的一些實施例包括本端邏輯處理器、在操作上與本端邏輯處理器通訊的局部記憶體以及常駐在局部記憶體中的結構化資料集。結構化資料集具有至少一個類型化屬性,並且每一個類型化屬性皆具有列名稱和相關聯的資料類型。在一些實施例中,結構化資料集屬性取樣模組常駐在局部記憶體中並且具有指令,該指令在由本端邏輯處理器執行時將自動將結構化資料集強制轉換成具有至少一個與結構化資料集共同的類型化屬性的屬性取樣。在一些實施例中,結構化資料集的屬性取樣常駐在局部記憶體中。在一些實施例中,常駐在局部記憶體中的指示基於從使用者的結構化資料集強制轉換而來的屬性取樣來指示不一定常駐在局部記憶體中的候選資料集是否是結構化資料集的匹配資料 集。
在一些實施例中,局部記憶體完全位於安全客戶端周界內。在某些情況下,以下各項中的至少一個亦常駐在也在安全客戶端周界內的記憶體(但不一定是局部記憶體)中:候選資料集、候選資料集的屬性取樣。
一些實施例包括結構化資料集修改模組,該模組常駐在記憶體中並具有指令,該指令在由處理器執行時將自動基於屬性取樣來定位匹配的資料集,並基於匹配的資料集來執行以上論述的一或多個修改。一些實施例包括結構化資料集修改預覽模組,該模組常駐在記憶體中並具有指令,該指令在由處理器執行時將自動提供針對匹配的資料集的修改預覽。
一些實施例包括包含指令的服務篩檢程式,該指令在由處理器執行時將識別例如在資料類型方面與屬性取樣部分或完全相容的服務。該服務將提供一或多個結構化資料集管理服務,諸如資料淨化(糾正值)、資料去重複、資料集匹配、資料集值擴展和資料集模式擴展。
一些實施例包括常駐在局部記憶體中的指令,該指令在由本端處理器執行時將執行以下介面能力實踐中的至少一個:經由顏色標記來顯示對結構化資料集的所建議的糾正的高置信度;提供藉由將游標懸停在結構化資料集上方來控制的修改預覽特徵;提供控制對結構化資料集中的多個儲存格的批量修改的上下文選單。一些實施例提供此等介面能力中的大於一個,並且一些實施例提供以上論述的 其他介面能力。給定實施例可出於一或多個目的來將資料趨向於使用者,例如作為以下各項中的一部分:修改使用者資料、向使用者試算表添加資料及/或向使用者提供外部資訊以便臨時查看並且可任選地本端地儲存該外部資訊。例如,使用者的上下文可包括包含公司名稱等的工作表。實施例的介面可顯示自動預覽,該自動預覽顯示從工作表中辨識出的公司的當前股價,以促進使用者對資料含義的洞察。使用者可以想要或可以不想要本端地儲存此資訊,但該受趨向的資料自動可供查看,而不管該資料是否被本端地持久儲存。
所提供的實例只是說明性的。本發明內容並不意慾識別所要求保護標的的關鍵特徵或必要特徵,亦不意慾用於限制所要求保護標的的範圍。相反地,提供本發明內容是為了以簡化的形式介紹將在以下具體實施方式中進一步描述的一些概念。本發明由申請專利範圍限定,在本發明內容與申請專利範圍有衝突的情況下,應該以申請專利範圍為準。
概覽
儘管大量結構化資料已被發佈在web上或可經由瀏覽器可存取的搜尋介面在所謂的「深度web」中獲取,但通常不清楚資料分析員或其他資訊工作者如何能夠找到相關資料,並且有時甚至不清楚相關資料是否存在。搜尋及/ 或瀏覽web以檢視結構化資料可能是極度困難且低效的,因為通常不清楚應當使用什麼關鍵字以及如何對搜尋中識別的資料集進行排名。
主要或只在大公司和其他企業中使用的資料集亦存在類似挑戰。儘管資訊工作者原則上經常希望重用此等內部資料集,但實際上重用是罕見的,因為在企業網路內找到相關資料集的成本很高。同樣,資訊工作者找到很好地適合資訊工作者的資料集的資料服務(淨化、去重複等)是困難且低效的。
本文描述的一些實施例提供了其中使用資訊工作者當前正在處理的資料來自動產生與資料集和資料服務的資料集的相關關係的使用者體驗。資料集管理隨後能夠以無瑕疵且低成本的方式向資訊工作者建議相關資料集和資料服務。
一些實施例產生資料的屬性取樣以供在外部服務中用來將使用者的資料集與相關的匹配資料集和資料服務相匹配。一些實施例執行候選資料集的本端(針對客戶的資料上下文)匹配。一些實施例提供一種「校準(try-up)」方法以促進使用者發現相關資料集和服務。在一些實施例中,在其中由作為拍賣環境的一部分的合夥人產生用於資料集管理服務的相關性度量的資訊生態系統中,資料表層用作上下文產生服務。
一些實施例預先應用資料集服務以提供更清晰地定義的益處。一些實施例自動產生可以與使用者自己的結構化 資料相關的所建議的結構化資料。一些實施例自動將使用者資料集與各種資料服務的提供者進行匹配,例如以便進行資料淨化、去重複以及各種資料豐富。一些實施例自動建議資料集以便進行模式增強或資料擴展。一些實施例自動提供共享實體資料集以說明產生藉由對使用者資料進行資料透視並將使用者資料與外部資料聯結來獲取的洞察。一些實施例提供對資料集及/或資料服務的提供者專用分析、分類和拍賣。
此處描述的某些實施例可以在較寬泛的上下文中查看。例如,諸如資料集、匹配、資料類型、添加、回退、改變和建議等概念可以與特定實施例相關。然而,並不能從寬泛上下文的可用性中得出此處對抽象概念尋求專有權;抽象概念並不是專有的。相反,本發明集中於提供適當具體的實施例。涉及資料集、匹配、資料類型、添加、回退、改變及/或建議的其他媒體、系統以及方法在本範圍之外。因此,在對本發明的正確理解下,亦避免了模糊性和附帶的證據問題。
現在將參考諸如附圖中所示出的彼等示例性實施例,並使用特定語言來對實施例進行描述。但是,相關技術領域的且擁有本案內容的技藝人士將想到的對此處所示出的特徵的更改和進一步的修改以及對本文所示的原理的其他應用,皆應該被視為在請求項的範圍內。
在本案中闡明了各術語的含義,因此應該在仔細關注此等闡明的情況下閱讀申請專利範圍。提供了具體實例,但 是相關領域的技藝人士將理解其他實例亦可落在所使用的術語的含義範圍內以及落在一或多個請求項的範圍內。術語在此處不一定具有與術語在一般用途中、在特定行業的用途中或在特定詞典或詞典集中所擁有的相同含義。元件符號可以與各種措詞一起使用,以幫助示出術語的廣度。從給定文字片段中省略元件符號不一定意味著沒有經由文字論述附圖的內容。發明人聲明並行使發明人對自己的詞典的權利。此處可在具體實施方式中及/或在申請檔的別處顯式地或隱式地定義術語。
如此處所使用的,「電腦系統」可包括例如一或多個伺服器、主機板、處理節點、個人電腦(可攜式或非可攜式)、個人數位助理、蜂巢或行動電話、至少具有處理器和記憶體的其他行動設備及/或提供至少部分地由指令來控制的一或多個處理器的其他設備。指令可以採用記憶體中的韌體或其他軟體及/或專用電路的形式。具體而言,儘管可發生許多實施例在工作站或膝上型電腦上執行,但是其他實施例亦可以在其他計算設備上執行,並且任何一或多個此類設備皆可以是給定實施例的一部分。
「多執行緒化」電腦系統是支援多個執行執行緒的電腦系統。術語「執行緒」應被理解為包括能夠或經歷排程(以及可能同步)的任何代碼,並且亦可以另一名稱來為人所知,如「任務」、「程序」或「協同常式」等。執行緒可以並行地、按順序或以並存執行(例如,多處理)和循序執行(例如,時間分片)的組合來執行。在各種配置中皆已 設計了多執行緒化環境。執行執行緒可以並行地執行,或者執行緒可以被組織為並存執行,但是實際上輪流按循序執行。例如,多執行緒化可以藉由在多處理環境中在不同核上執行不同執行緒、經由對單個處理器核上的不同執行緒進行時間分片或者經由時間分片和多處理器執行緒化的某種組合來實現。執行緒上下文切換可以例如由核心的執行緒排程器、由使用者空間信號或由使用者空間和核心操作的組合來發起。執行緒可以輪流對共享資料進行操作,或者例如每一執行緒皆可以對執行緒自己的資料進行操作。
「邏輯處理器」或「處理器」是單個獨立硬體執行緒單元,如同時多執行緒實現中的核。作為另一實例,每核執行兩個執行緒的超執行緒四核晶片具有8個邏輯處理器。處理器可以是通用的,或者處理器可被定製用於特定用途,例如圖形處理、信號處理、浮點算術處理、加密、I/O處理等等。
「多處理器」電腦系統是具有多個邏輯處理器的電腦系統。多處理器環境存在於各種配置中。在給定配置中,所有處理器可在功能上相同,而在另一配置中,由於具有不同的硬體能力、不同的軟體分配或兩者,某些處理器可與其他處理器不同。取決於配置,處理器可在單個匯流排上緊密地彼此耦合,或處理器可鬆散地耦合。在某些配置中,處理器共享中央記憶體,在某些配置中,處理器各自具有自己的局部記憶體,在某些配置中,存在共享和局部 記憶體兩者。
「核心」包括作業系統、系統管理程式、虛擬機器、BIOS代碼以及類似的硬體介面軟體。
「代碼」指的是處理器指令、資料(包括常數、變數以及資料結構)或指令和資料兩者。
「程式」在本文中被廣泛地使用以包括應用、核心、驅動程式、中斷處理常式、庫以及程式師(亦被成為開發者)編寫的其他代碼。
「自動地」指的是使用自動化(例如,由用於此處所論述的特定操作的軟體配置的通用計算硬體),與沒有自動化相對。特別地,「自動地」執行的步驟不是由手在紙上或在人的頭腦中執行的,步驟是用機器執行的。然而,「自動地」不必意味著「立即地」。
「經由計算」指的是使用計算設備(至少是處理器加上記憶體),且排除了僅經由人類思考或僅經由單獨的人類動作而獲得結果。例如,用紙和筆做算術並不是此處所理解的計算上做算術。「計算步驟」是經由計算執行的步驟。
「預動式」意味著沒有來自使用者的直接請求。的確,使用者甚至可能直到已經向該使用者呈現實施例中的預動式步驟的結果才意識到該步驟是可能的。
「使用者工作上下文」是用於查看(至少)結構化資料集的工具的實例。例如試算表、報告產生器或web瀏覽器的實例是使用者工作上下文。
貫穿本文,對任選複數「(諸)」的使用意味著一或多個 所指示的特徵存在。例如,「(諸)值」意味著「一或多個值」或等效於「至少一個值」。
貫穿本文,除非另外明確表明,否則對程序中的某一步驟的任何引用皆假定該步驟可直接由所關注的一方執行及/或由該方藉由介入機制及/或介入實體而間接地執行,且仍然在該步驟的範圍內。亦就是說,除非直接執行是被明確表明的要求,否則並不要求由關注方對步驟的直接執行。例如,涉及某一關注方的對於目的或其他主體的諸如接受、添加、帶到、強制轉換、改變、淨化、確認、控制、顯示、豐富、輸入、執行、實施、擴展、識別、指示、匹配、修改、獲取、打開、操作、進行、提供、接收、回退、選擇、建議、提供、查看(或接受、接受的、添加、添加的等)之類的動作的步驟可涉及:諸如由某一其他方執行的轉發、複製、上傳、下載、編碼、解碼、壓縮、解壓、加密、解密、認證、調用等中間動作,但然被理解為是由該關注方直接執行的。
在參考資料或指令時,要理解此等項目配置了電腦可讀取記憶體,從而將電腦可讀取記憶體變換為特定物品,而非簡單地存在於紙張上、人的頭腦中或作為例如線路上的暫態信號。記憶體或其他電腦可讀取媒體被假設為是非暫態的,除非被另外明確表明。
操作環境
參考圖1,用於一個實施例的操作環境100可包括電腦系統102。電腦系統102可以是多處理器電腦系統,或者 亦可以不是。操作環境可包括給定電腦系統中的一或多個機器,機器可以是群集的、客戶端-伺服器網絡連接的及/或同級間網絡連接的。個體機器是電腦系統,且一組協同操作的機器亦是電腦系統。給定電腦系統102可以例如用應用被配置用於最終使用者、用於管理員、作為伺服器、作為分散式處理節點及/或以其他方式配置。
人類使用者104可以經由使用顯示器、鍵盤及其他周邊設備106與電腦系統102進行互動。資料分析員、系統管理員、開發者、工程師以及終端使用者各自是特定類型的使用者104。代表一或多個人操作的自動化代理亦可以是使用者104。在某些實施例中,儲存裝置及/或網絡連接設備可以被認為是周邊設備。圖1中未圖示的其他電腦系統可以與電腦系統102進行互動,或者例如經由網路周邊設備使用到網路108的一或多個連接與另一系統實施例進行互動。
電腦系統102包括至少一個邏輯處理器110。電腦系統102與其他合適的系統一樣,亦包括一或多個電腦可讀取非瞬態儲存媒體112。媒體112可以是不同的實體類型。媒體112可以是揮發性記憶體、非揮發性記憶體、被安裝就位的媒體、可移除媒體、磁性媒體、光學媒體及/或其他類型的非瞬態媒體(而不是諸如只傳播信號的線路之類的瞬態媒體)。具體而言,諸如CD、DVD、記憶棒或其他可移除非揮發性記憶體媒體之類的經配置的媒體114在被插入或以其他方式安裝時可以在功能上變為電腦系統的一 部分,從而使媒體內容可被存取以供處理器110使用。可移除的經配置的媒體114是電腦可讀取儲存媒體112的實例。電腦可讀取儲存媒體112的某些其他實例包括內置RAM、ROM、硬碟以及其他不能被使用者104輕鬆地移走的儲存裝置。
媒體114用可由處理器110執行的指令116來配置;「可執行」在此以寬泛的意義被使用以包括機器代碼、可解釋代碼以及在例如虛擬機器上執行的代碼。媒體114亦被配置有資料118,該資料經由指令116的執行被建立、修改、引用及/或以別的方式使用。指令116和資料118配置指令116和資料118所常駐的媒體114,當該記憶體是給定電腦系統的功能部分時,指令116和資料118亦配置該電腦系統。在某些實施例中,資料118的一部分代表了諸如產品特徵、列表、實體測量值、設定、圖像、讀數、目標、卷等等之類的現實世界的項。此資料亦經由本文論述的預覽、修改和其他資料集管理操作來變換。
諸如試算表122、瀏覽器124及/或用於(至少)查看結構化資料集126的其他工具等工具120以及諸如配置參數、身份碼和核心軟體以及各附圖中圖示及/或本文論述的其他項目等使用者工作上下文128的其他態樣可以部分或完全常駐在一或多個媒體112內,由此配置此等媒體。結構化資料集126(若存在的話)通常將具有至少一個類型化屬性130。亦可存在防火牆、存取控制、認證機制和其他熟悉的資料安全工具形式的客戶端安全周界132。除了 處理器110和記憶體/媒體112之外,操作環境亦可包括其他硬體,諸如顯示器134、匯流排、電源和加速器等。
在圖1中以輪廓形式圖示一或多個項目來強調項目不一定是所示操作環境的一部分,但是可以與此處論述的操作環境中的項目互動操作。未採用輪廓形式的項在任何附圖或任何實施例中亦不一定是必需的。
系統
圖2圖示適用於一些實施例的體系結構;在本論述中亦做出了對圖1和3的支持引用。結構化資料集126具有一或多個類型化屬性130。每一個類型化屬性130皆具有諸如列名稱等名稱202和諸如串、實數、整數、位址、郵遞區號、美元、歐元、日期、時間等資料類型204。儘管具有行和列的二維結構化資料集此處被用作方便的實例,但資料集通常可以是N維結構,其中資料集的給定儲存格206可具有N個位置座標,其中N≧2。
在一些實施例中,屬性取樣模組208包括能夠從給定資料集126中計算出屬性取樣210的邏輯(具有支援硬體的代碼)。「屬性取樣」是資料結構,其反映從中強制轉換出該屬性取樣的資料集的某些、但不是全部內容,並且對於給定實施例在適當時否則符合此處的描述。
一般而言,屬性取樣210可以從資料集126的不同特性中強制轉換而來。取決於該實施例,屬性取樣210可以從以下特性中的一或多個中強制轉換而來:各個屬性(亦被稱為標籤)及屬性資料類型、多個類型化屬性的模式、屬 性統計資料(例如,邊界限制、分佈、均值以及從屬性的儲存格值計算出的其他統計值,而不是各個儲存格值)、屬性類別(例如,「地理」、「年代順序」、「財務」或其他一般類別,而並非分別是諸如位址、出生日期、總收入等特定屬性)、所選儲存格值(例如,隨機取樣的儲存格值或行N中的儲存格值)。
在一些實施例中,屬性取樣210和結構化資料集126之間的對應關係不是一對一的。例如,一些資料集可能不具有對應的屬性取樣,因為尚未產生屬性取樣。同樣,若不同的資料集具有相同的相干特性(例如若資料集具有相同的類型化屬性),則彼等資料集可被強制轉換成相同的屬性取樣,而不管資料集是否具有彼此不同的儲存格值。給定資料集亦可由不同的實施例被強制轉換成不同的屬性取樣。
在一些實施例中,初級屬性取樣可以在完成以用作屬性取樣210之前經由計算來根據之前的屬性取樣進行調整,以反映諸如歷史或策略等本端情況。關於歷史,對特性的一些選擇在歷史上可能已經在導致有說明的服務及/或資料集匹配建議態樣更具生產性,並因此被偏好包括在屬性取樣210中。關於策略,一些特性在屬性取樣中可能被要求遵守企業策略,例如與資料集服務拍賣約定相容,並且一些特性可由企業策略來被阻止在屬性取樣中使用,例如以便保護商業秘密。
一些實施例包括一或多個候選資料集212、126,每一個 候選資料集皆可能隨後被決定或不被決定為亦是匹配的資料集214、126。候選資料集212是否是匹配的資料集214在一些實施例中經由存在匹配的資料集辨識符的列表或集合中的標誌或經由某一其他匹配指示216來指示。「匹配的資料集」是資料集相干特性在指定容忍度內匹配感興趣的給定結構化資料集126的特性的資料集。資料集之間的匹配(和不匹配)可經由比較從各自的資料集強制轉換而來的屬性取樣來決定。
一些實施例包括一或多個服務篩檢程式218,該一或多個服務篩檢程式使用屬性取樣210來過濾(過濾得到(filter in)及/或過濾掉(filter out))候選服務220作為感興趣的給定結構化資料集126的匹配資料集。例如,服務篩檢程式218可被配置成過濾得到服務220,該服務220提供對包括財務類別中的任何屬性130的屬性取樣210的公開公司收入資料儲存格206的資料淨化,或者在該屬性取樣包括企業名稱串屬性130和企業報告利潤貨幣值屬性130時過濾得到服務220。
一些實施例包括資料集修改模組222,該模組具有用於修改資料集126及/或資料集的使用者工作上下文128的邏輯。資料集126可經由以下方式修改:添加屬性130、將儲存格206添加到現有行及/或作為新添加的行中的儲存格及/或改變(例如,淨化、去重複)儲存格值。資料集工作上下文128可藉由添加另一資料集126來修改,該另一資料集與感興趣的原始結構化資料集共享實體,但不一定 具有任一相同的屬性。例如,包含關於公共企業XYZ的財務表現資訊的原始資料集可以在工作上下文128中用包含一組企業的名稱和交叉所有權資料的資料集來補充。
一些實施例包括資料集修改預覽模組224,該模組具有用於暫時顯示將藉由接受所建議的修改(例如,藉由允許修改模組222豐富或改變資料集或添加共享實體的資料集,如剛才所論述的)來做出的改變中的部分或全部的邏輯。暫時(預覽)修改和永久(接受)修改之間的區分在給定實施例中以各種方式進行。在一些實施例中,只在游標懸停在指定資料集元素上方時顯示預覽。在一些實施例中,預覽對資料集的RAM緩衝副本進行操作,該副本只在使用者經由某一介面322手勢接受預覽的修改之後被保存到非揮發性儲存。在一些實施例中,一次只可預覽單個修改,但該修改可影響多個儲存格,例如,該修改將添加若干新行,但不會亦對現有行的資料進行去重複。然而,在一些實施例中,所建議的修改的影響只在做出該修改之後被看見,但在此等實施例中的某一些實施例中,該修改可以在做出後被復原(回退)。
參考圖1到3,一些實施例提供了具有邏輯處理器110和記憶體媒體112的電腦系統102,該記憶體媒體由用於經由如本文所描述的預動建議的修改來變換結構化資料集126及/或結構化資料集126工作上下文128的電路、韌體及/或軟體(「邏輯」)來配置。
一些實施例包括用於管理結構化資料集126的計算系統 102,該計算系統包括本端邏輯處理器110、在操作上與本端邏輯處理器通訊的局部記憶體112以及「結構化資料集」126,亦即使用者感興趣的資料集126。該感興趣的資料集是至少最初由使用者提供的資料集;該資料集是使用者104主要關注的資料集。該感興趣的結構化資料集有時被稱為「原始資料集」;儘管該資料集先前可能已經被修改(例如,由模組222),但該資料集是原始的而不是候選或匹配資料集,因為該修改是使用者104啟始的。結構化資料集常駐在局部記憶體中並且具有至少一個類型化屬性130。在一些實施例中,每一個類型化屬性皆包括列名稱202和相關聯的資料類型204。
一些實施例包括常駐在局部記憶體112中的結構化資料集屬性取樣模組208。模組208具有指令,該指令在由本端邏輯處理器110執行時將自動將感興趣的結構化資料集強制轉換成具有至少一個與該結構化資料集共同的類型化屬性的屬性取樣210。
一些實施例包括感興趣的結構化資料集的屬性取樣210。屬性取樣210亦常駐在局部記憶體112中。
一些實施例包括常駐在局部記憶體112中的匹配指示216,該指示基於屬性取樣210來指示候選資料集212是否是感興趣的結構化資料集126的匹配的資料集214。候選資料集212不一定常駐在局部記憶體112中,但若不常駐,則該候選資料集的屬性取樣將在局部記憶體中以允許經由比較候選和原始資料集各自的屬性取樣來比較候選 和原始資料集,以決定候選和原始資料集是否匹配。具體而言,在一些實施例中,局部記憶體112完全位於安全客戶端周界402內,並且以下各項中的至少一個亦常駐在亦在安全客戶端周界內的記憶體(不一定是局部記憶體)中:候選資料集、候選資料集的屬性取樣。
一些實施例包括包含指令的服務篩檢程式218,該指令在由處理器執行時將識別與原始資料集的屬性取樣相容的資料集服務220。匹配指示216可用於指示感興趣的結構化資料集和資料集服務220之間的匹配。服務220可提供資料集服務,諸如資料淨化(糾正儲存格值)、資料去重複(移除重複儲存格、行、列)、資料集匹配(提供有可能匹配的候選資料集及/或匹配的資料集)、資料集值擴展(添加行、列;過濾得到空儲存格)及/或資料集模式擴展(添加屬性)。
一些實施例包括結構化資料集修改模組222,該模組常駐在記憶體中並具有指令,該指令在由處理器執行時將自動基於屬性取樣來定位匹配的資料集214,並基於匹配的資料集(或等效地基於匹配的資料集的屬性取樣)來執行一或多個修改。例如,模組222可經由基於屬性頻繁項目集資訊404添加至少一個類型化屬性130來豐富結構化資料集126。模組222可經由添加來自匹配的資料集的至少一行及/或藉由向結構化資料集的一行添加匹配的資料集的至少一個儲存格值來豐富結構化資料集。模組222可淨化結構化資料集的至少一個儲存格值。
一些實施例包括常駐在記憶體中的結構化資料集修改預覽模組224。在一些實施例中,預覽模組224可使得經由修改模組222的可能的任何修改的結果對使用者104可見。在其他實施例中,只可預覽可能的修改中的某一些(並非全部)。無論如何,預覽模組224具有指令,該指令在由處理器執行時將向使用者提供針對匹配的資料集的修改的預覽。
在一些實施例中,系統102包括常駐在局部記憶體中的指令,該指令在由本端處理器執行時將執行提供特定介面能力的操作。此等指令可以是修改模組222、預覽模組224或諸如介面322代碼等其他客戶端406代碼的一部分。一種介面能力324經由顏色標記來顯示對結構化資料集的所建議的糾正的高置信度,例如藉由在淨化預覽中用綠色背景、綠色邊框或綠色字體顯示經淨化的儲存格以顯示對該淨化的信任,且用黃色顯示懷疑。一種介面能力324提供修改預覽特徵,該特徵藉由將游標懸停在結構化資料集上方來控制,以使得在游標處於將被修改的資料集或資料集部分的上方時顯示預覽結果,否則不顯示。一種介面能力324提供控制對結構化資料集的多個儲存格的批量修改(例如,容易受到單個建議接受的添加或淨化多個儲存格的修改)的上下文選單。一些實施例實施320一種介面能力,該介面能力顯示受趨向的資料集而不一定暗示對使用者的原始資料集的修改,例如藉由顯示以便查看372匹配的資料集的至少一部分而無需或不提供或不執行基於匹 配的資料集的對結構化資料集的修改。
在某些實施例中,諸如人類使用者I/O設備之類的周邊設備106(螢幕、鍵盤、滑鼠、圖形輸入板、話筒、揚聲器、運動感測器等等)將可以在操作上與一或多個處理器110和記憶體進行通訊。然而,實施例亦可以深嵌入在系統中,以便沒有人類使用者104直接與該實施例進行互動。軟體程序可以是使用者104。
在某些實施例中,該系統包括經由網路連接的多個電腦。網路周邊設備可以使用例如諸如封包交換網路介面卡、無線收發機或電話網路介面之類的元件提供對網路108的存取,並將存在於電腦系統中。然而,實施例亦可以經由直接記憶體存取、可移除非揮發性媒體或其他資訊儲存-檢索及/或傳輸方法進行通訊,或者,電腦系統中的實施例可以在不與其他電腦系統進行通訊的情況下操作。
某些實施例在「雲端」計算環境及/或「雲端」儲存環境中操作,其中計算服務不是自有的,而是依須求提供的。例如,服務篩檢程式218和服務220可以在網絡連接雲端的多個設備/系統102上,候選資料集212可以被儲存在雲端內的又一些其他設備上,且介面322、修改模組222及/或預覽模組224可以配置另外一些其他雲端設備/系統102上的顯示器134。
程序
圖3用流程圖300圖示某些程序實施例。附圖中所圖示的程序在某些實施例中可以例如由對工具120的請求驅動 的修改模組222來自動執行,該工具在腳本的控制下執行或另外需要極少或不需要同時的使用者輸入。除非另外指明,否則程序亦可以部分自動地且部分手動地執行。在給定實施例中,可以重複程序的零個或更多個所示出的步驟,有可能利用不同的參數或資料來操作。實施例中的步驟亦可以按照與圖3中展示的自頂向下次序不同的次序來執行。步驟可以串列地、以部分重疊的方式或完全並行地執行。遍歷流程圖300以指出在程序中執行的步驟的次序可以在程序的一次執行與該程序的另一次執行之間不同。流程圖遍歷次序亦可以在一個程序實施例與另一程序實施例之間不同。各步驟亦可以被省略、組合、重命名、重組或以其他方式偏離所示出的流程,只要所執行的程序是可操作的,並符合至少一個請求項。
此處提供了幫助示出該技術的各態樣的實例,但是在本文內提供的實例並未描述所有可能的實施例。實施例不僅限於此處所提供的具體實現、排列、顯示、特徵、方法或情形。給定實施例可包括例如附加的或不同的特徵、機制及/或資料結構,並可以以別的方式偏離此處所提供的實例。
在資料集獲取步驟302期間,實施例獲取結構化資料集126。步驟302可使用通知、訊息、調用、輪詢及/或告知預動模組222或224工具120已經打開例如資料集檔的其他機制來完成。
在強制轉換步驟304期間,實施例將資料集強制轉換成 屬性取樣210,亦即該實施例經由計算從感興趣的所選資訊中形成(建立或更新)屬性取樣210。如上所述,不同的實施例可選擇資料集的不同特性來包括在屬性取樣中。屬性取樣210可被實現為構造、記錄、XML代碼、物件或使用適於包含如本文描述的特性的其他熟悉的資料結構。亦可在屬性取樣中包括諸如時間戳記、數位簽章、校驗和以及元資料等附加值。
在識別步驟306期間,實施例基於屬性取樣210來識別一或多個匹配的資料集214。步驟306可經由將逐個元素地將候選資料集的屬性取樣與感興趣的原始資料集的屬性取樣進行比較來完成。不一定需要識別每一個元素。可以為給定元素(例如,彼此在十年內)及/或為作為整體的屬性取樣(例如,至少五個元素必須匹配以使得屬性取樣匹配,或至少80%的元素必須匹配以使得屬性取樣匹配)指定容忍度。
在修改執行步驟308期間,實施例經由計算執行對結構化資料集及/或該資料集的工作上下文的修改。例如,步驟308可包括用更多行、列及/或儲存格來豐富310資料集,可包括改變312儲存格值314及/或可包括316向上下文128添加共享實體318的資料集。步驟308可經由以下操作來實現:對工具120的現有資料登錄代碼進行操作,同時向工具120饋送匹配的資料集或服務的新資料及/或不同資料以便修改,而不是允許工具120依靠使用者提供的資料。
在介面能力實施步驟320期間,實施例實施介面能力324。例如,步驟320可包括顯示326所建議的修改330、顯示328所建議的修改的預覽332或回退334以復原先前執行308的修改。回退334可使用內部操作歷史(類似於文字處理程式、試算表的復原功能)以及對本文描述的修改330進行操作的其他工具。
在安全要求遵守步驟336期間,實施例遵守安全周界條件338。例如,該實施例可將候選資料集帶到周界402內,而不是允許將感興趣的資料集帶到該周界外。可使用諸如許可、檔案系統存取控制、身份碼、認證、防火牆等熟悉的安全機制來專門提供資料集126的安全性。
在使用步驟340、342的場景期間,實施例分別使用來自實例場景344或從零開始場景346。一些實施例支援此兩個場景,而其他實施例只支援此等場景中的一個。
在修改建議步驟348階段,實施例建議對感興趣的資料集126及/或資料上下文128的一或多個修改330。一些實施例預動建議諸如特定行添加等特定修改,而其他實施例僅僅經由對話方塊或經由顯示例如可用修改的列表或其他匯總來警告使用者修改可用。
在服務匹配步驟350期間,實施例經由資料集的屬性取樣來將資料集與資料集服務220進行匹配(或嘗試匹配)。服務220可具有其自己的屬性取樣,該屬性取樣定義例如該服務期望在所操作的資料集126中找到的屬性。期望服務屬性取樣(不像資料集屬性取樣)通常將由服務提供者 來手動產生,而不是自動產生。
在資料集提供步驟352期間,使用者(或代表使用者操作的實施例)提供感興趣的結構化資料集(亦被稱為原始資料集)。步驟352可例如藉由在工具120中打開資料集檔或經由在工具120中開始建立資料集模式來完成。
在資料集修改步驟354期間,使用者(或代表使用者操作的實施例)修改感興趣的結構化資料集(亦被稱為原始資料集)。步驟354可經由以下操作來完成:藉由腳本或經由使用者介面手勢來操作實施例以使該實施例執行308修改330。
在周界選擇步驟356期間,使用者(或代表使用者操作的實施例)選擇安全周界402來包含使用者提供的資料集126,例如藉由使用結合步驟336描述的熟悉的安全機制。
在周界選擇確認步驟358期間,使用者(或代表使用者操作的實施例)確認先前對周界402的選擇356,例如顯式地經由介面手勢或隱式地藉由使用其中做出選擇356的實施例。
在服務選擇步驟360期間,使用者(或代表使用者操作的實施例)選擇資料集服務220,例如藉由使用介面手勢(滑鼠點擊、鍵按壓、螢幕觸摸、圖示拖動等)。
在服務選擇確認步驟362期間,使用者(或代表使用者操作的實施例)確認先前對資料集服務220的選擇360,例如顯式地經由介面手勢或隱式地藉由使用其中做出選擇360的實施例。
在計算系統操作步驟364期間,使用者(或代表使用者操作的實施例)操作計算系統102,例如經由腳本或藉由使用介面手勢(滑鼠點擊、鍵按壓、螢幕觸摸、圖示拖動等)。
在資料集檔打開步驟366期間,使用者(或代表使用者操作的實施例)打開包含資料集126的至少一部分的一或多個檔,例如藉由在工具120中打開資料集檔。
在建議接收步驟368期間,使用者從實施例接收修改建議330,例如作為預覽的一部分或者在預動提供的修改330的列表中。在建議接受步驟370期間,使用者接受來自實施例的修改建議330,顯式地經由介面手勢或隱式地藉由不回退該修改。
建議330和修改330此處被指定為具有相同的元件符號330,從而意識到建議有時將被採納並由此稱為修改,並且理解在本領域技藝人士的上下文中,所建議的修改和所接受的修改之間的任何合適的差別皆將是清楚的。使用共享的元件符號並不意味著每一個建議皆必須被接受,或者任何修改皆必須首先被呈現為建議(在預覽中或以其他方式)。
在儲存格值查看步驟372期間,使用者例如在顯示器上顯示的試算表中查看儲存格值214。
在建議查看步驟374期間,使用者查看顯示例如顯示器上顯示的試算表中的所建議的修改的結果的圖像。
下面將參考各實施例比較詳細地論述前面的步驟和步 驟的相互關係。
從實施例的觀點來看,一些實施例向使用者提供用於管理結構化資料集的程序。該程序包括在使用者工作上下文中獲取302具有至少一個類型化屬性的結構化資料集的計算步驟。在一些實施例中,每一個類型化屬性皆具有列名稱和相關聯的資料類型,但例如在N維資料集中亦可使用其他標籤。該程序亦包括經由計算將結構化資料集強制轉換304成具有至少一個與該結構化資料集共同的類型化屬性的屬性取樣。一些實施例包括至少部分地基於屬性取樣來識別306至少一個匹配的資料集214及/或匹配350的資料集服務220。
一些實施例包括至少部分地基於匹配的資料集或服務來執行308一或多個修改330。例如,一些實施例藉由至少部分地基於屬性頻繁項目集資訊來添加匹配的資料集的至少一個類型化屬性來豐富310結構化資料集。一些實施例藉由添加匹配的資料集的至少一行來豐富310結構化資料集。一些實施例藉由向結構化資料集的一行添加匹配的資料集或服務的至少一個儲存格值來豐富310結構化資料集。一些實施例改變312結構化資料集的至少一個儲存格值以匹配來自匹配的資料集或服務的儲存格值。一些實施例向使用者工作上下文添加316匹配的資料集,該匹配的資料集與結構化資料集共享實體318且不一定與結構化資料集共享類型化屬性。一些實施例將屬性取樣(並由此將資料集)與諸如資料淨化服務等特定服務220進行匹配 350。
一些實施例藉由計算執行特定步驟來實施320介面能力324。例如,一些實施例用第一顏色顯示結構化資料集的儲存格值,並且同時用不同的第二顏色(例如,不同的背景、邊框及/或字體顏色)顯示作為所建議的修改的另一儲存格值。一些實施例顯示存在修改建議的顏色指示,而不一定顯示建議本身,除非被提示或配置成如此做。一些實施例將儲存格值從第一值改312為第二值,顯示第二值,並且隨後在不使使用者在顯示第二值之後鍵入第一值的情況下回退334到第一值。一些實施例顯示328修改預覽,即使用者尚未接受的可能修改的結果的圖像。
在一些實施例中,強制轉換步驟將結構化資料集強制轉換304成屬性取樣,該屬性取樣除了具有至少一個與結構化資料集共同的類型化屬性之外,亦具有與結構化資料集共同的以下各項中的至少一個:屬性類別、儲存格值、本文描述的屬性取樣210的任何其他特性。
在一些實施例中,(至少部分地基於屬性取樣)識別306至少一個匹配的資料集或資料集服務的步驟遵守至少一個指定的周界條件338。因此,在一些實施例中,匹配的資料集識別經由計算在客戶端周界內進行,匹配的資料集是被帶到客戶端周界內的資料集。在一些實施例中,匹配的資料集識別經由計算在客戶端安全周界內進行,該匹配的資料集具有被帶到客戶端周界內的資料集屬性取樣。在一些實施例中,藉由在客戶端周界之外使用結構化資料集 屬性取樣而不將結構化資料集本身帶到該客戶端周界之外,匹配的資料集識別經由計算在客戶端周界外進行。
一些實施例使用340來自實例場景344。在此種場景中,結構化資料集126包括具有對應的類型化屬性以及填充行的一或多個儲存格值的至少一行。此等實施例中的一些實施例包括使用者工作上下文中的計算步驟,諸如預動建議348結構化資料集的附加屬性、結構化資料集的附加行、儲存格值中的至少一個的改變、附加儲存格值或儲存格值刪除。
一些實施例使用342從零開始場景346。在此種場景中,結構化資料集包括至少一個類型化屬性,但不一定亦已經包括任何儲存格值,因為使用者正從零開始建立模式。此等實施例中的一些實施例經由計算在使用者工作上下文中建議結構化資料集的附加屬性。建議330可以至少部分地基於使用者輸入的屬性,並且可基於屬性頻繁項目集資訊。
從使用者的觀點來看,一些實施例由使用者完成以便在使用者工作上下文中管理結構化資料集。例如,在某些情況下,使用者的程序包括向使用者工作上下文中的計算系統提供352原始結構化資料集126,例如藉由在計算系統中的試算表應用120中打開結構化資料集。資料集126可包括至少一個類型化屬性,並且可包括具有對應的類型化屬性以及填充行的一或多個儲存格值的至少一行。使用者亦藉由操作364計算系統以執行修改330來修改原始結構 化資料集或使用者工作上下文(或兩者)。修改可以至少部分地基於未被首先顯式地向使用者工作上下文中的計算系統識別(亦即,該相同識別匹配,而非使用者)的匹配的資料集或資料集服務。
在某些情況下,該使用者程序經由添加匹配的資料集的至少一個類型化屬性來豐富310結構化資料集。在某些情況下,該使用者程序藉由添加來自匹配的資料集的至少一行來豐富310結構化資料集。在某些情況下,該使用者程序藉由向結構化資料集的一行添加來自匹配的資料集的至少一個儲存格值來豐富310結構化資料集。在某些情況下,該使用者程序改變312結構化資料集的至少一個儲存格值以便與匹配的資料集或服務的儲存格值相匹配。在某些情況下,該使用者程序向使用者工作上下文添加316匹配的資料集。匹配的資料集可以與結構化資料集共享實體318,而不與結構化資料集共享類型化屬性。
在一些實施例中,使用者在提供步驟352和修改步驟354之間從計算系統接收368結構化資料集修改建議330,並且隨後接受370該建議。作為該定時和活動的結果,修改步驟354包括操作計算系統來實現(即,在資料集內執行)該建議。
在某些情況下,使用者受雇於「企業」,亦即具有至少50個雇員的公司、機構、協會或其他實體。在此等情況下,豐富310結構化資料集可涉及基於該企業的屬性頻繁項目集資訊來添加至少一個類型化屬性。亦即,一些屬性在統 計上將比其他屬性更頻繁地在企業中使用,並且彼等統計資料-頻繁項目集資訊-可用於制定建議330。
在一些實施例中,該使用者程序包括查看372、374介面能力324。例如,使用者可查看372結構化資料集中的第一顏色的儲存格值314,並同時查看374不同的第二顏色的作為所建議的修改的另一儲存格值。在某些情況下,使用者可將儲存格值從第一值改312為第二值,查看第二值,並且隨後在不在查看第二值之後鍵入第一值的情況下回退到第一值(一般資料登錄不被認為是回退)。在某些情況下,使用者可查看374修改預覽,亦即使用者尚未接受的修改建議的結果的圖像。
在某些情況下,該使用者程序包括選擇356客戶端周界來限制結構化資料集的分發,及/或確認358先前對用於限制結構化資料集的分發的客戶端周界的人類或自動化選擇。在某些情況下,該使用者程序包括選擇360資料淨化、資料豐富或其他服務220,例如以便建議對結構化資料集的儲存格值的改變。在某些情況下,該使用者程序包括確認362先前對服務220的人類或自動化選擇。在某些情況下,該使用者程序包括選擇360共享實體資料集服務來建議與結構化資料集共享實體的資料集;在某些情況下,該使用者程序包括確認362先前對用於建議與結構化資料集共享實體的資料集的共享實體資料集服務的人類或自動化選擇。
圖4是圖示示例體系結構中的結構化資料集管理的各態 樣的資料串流圖。給定實施例不一定涵蓋圖4(或任何其他附圖)所圖示的每一個項目,但整體系結構被描述為說明理解可能的實施例及實施例操作和元件。
給定客戶端406可以是伺服器-客戶端意義上的客戶端,或者同級網路中的節點,或者該客戶端可具有從網絡連接觀點來看的某一其他角色。無論如何,客戶端406被認為是出於結構化資料集管理的目的的客戶端,因為使用者最直接地與該客戶端互動。
所圖示客戶端406包括邏輯,諸如屬性取樣引擎408、候選匹配410和試用使用者體驗412。屬性取樣引擎408可包括屬性取樣模組208,該模組用於產生例如屬性取樣210以及屬性取樣的庫、儲存庫或其他集合(特別是從候選資料集212強制轉換而來的彼等屬性取樣)。候選匹配410可包括例如服務篩檢程式218、用於相互比較屬性取樣的代碼以及匹配指示216。試用使用者體驗412可包括例如具有用於顯示介面能力324的代碼的介面322、預覽模組224和修改模組222。此等功能在不同的實施例中可以不同地組織,並且並非每一個實施例皆具有每一個功能。
在所圖示體系結構中,可存在各種資料服務414。資料表層服務416提供客戶端406和資料表層418之間的介面(經由web服務、API等)。資料表層服務416亦可包括認證、記錄、記帳和類似的管理功能。資料表層418可包括用於將屬性取樣與服務220的提供者進行匹配的試探法 420,例如,用於在關於棒球的「bat」屬性和關於飛行哺乳動物的「bat」屬性之間進行區分並相應地建議服務220的機制。
在一些方法中,資料表層418可包括複合索引422。此可以在以下情況下出現:表層中索引的候選資料集具有不止一個表徵此等資料集的「緯度」(屬性)及/或使用者原始資料集被多維地強制轉換304成屬性取樣。複合索引可提供屬性頻繁項目集資訊。
在一些方法中,資料表層418可包括拍賣框架424,其中提供候選資料集集合以供進行許可、提供資料集服務或兩者兼而有之。亦可在結構化資料集管理體系結構中實現其他市場隱喻。可插並行模組可經由使用者互動分數來進化以提供相關資料集和服務220。在一些實施例中,資料表層418是上下文產生服務,資料表層418的輸入是使用者的原始資料並且資料表層418的輸出是包含附加相關資料的上下文中的使用者資料。
在所圖示體系結構中,系統服務426包括複合索引管理、資料提供者管理和共享實體地圖。複合索引管理提供用於複合索引和屬性頻繁項目集資訊的儲存庫。資料提供者管理包括資料集集合提供者、資料集服務提供者和諸如聯絡資訊等相關資料的註冊。共享實體地圖提供基於包括使用者經常感興趣的實體的共享實體的資料集及/或資料集服務之間的連接。
在所圖示體系結構中,客戶端可存取(可能在事務費用 或訂閱的基礎上)的資料來源428包括諸如使用者的企業中已經擁有或得到許可的資料集之類的私有結構化資料430。同樣可用的可以是諸如商業資料提供者提供的資料集之類的精心組織的資料432(通常在特定主題內及/或具有特定品質保證)以及從公開的公共web或深度web中提取的資料434(不一定具有任何品質保證)。
在所圖示體系結構中,客戶端可存取(可能付費)的知識服務436包括資料集服務220以及提供諸如主題、成本、新近性、提供者身份等關於資料集服務220的資訊的元服務。知識服務436亦可包括諸如等時線或位置線等X線試探法438。具有歷史的實體318具有等時線。具有地理分佈的實體318具有位置線。具有內部組織結構的實體318具有組織線,等等。一旦實體318被識別為是感興趣的,則試探法可指示什麼種類的X線是與該實體相關的並且相應地向使用者提供資料集。例如,若實體318是公共公司,則可向客戶端提供包括該公共公司的集合中的公司的收入線。
更一般而言,結構化資料集管理體系結構可包括本文描述的特徵的任何組合或等效態樣。作為幾個附加具體實例,實施例可使用顏色標記方案來表示各種類型的所建議的資訊(一般建議、高置信度糾正、丟失值、替換值等)。實施例可保持在任何時刻回退任何值的能力,且原始值被儲存在背景。對許多儲存格的批量操作可由上下文功能表來支援以接受/實現建議及/或回退。在一些實施例中,「試 用」預覽特徵允許使用者懸停在資料集上方並在接受建議之前獲取對附加行/列以及淨化建議將看上去像什麼的即時預覽。一些實施例在使用者正在鍵入列標題時自動並預動填充模式建議。儘管主要將資料集作為本文的實例,但一些實施例亦在屬性取樣和服務220之間進行匹配。
對於一些實施例而言,作為設計目標,使用者無需搜尋相關資料,因為相關資料會找到資料使用者。亦即,相關資料將在使用者不直接搜尋或瀏覽web以找到相關資料的情況下有效地趨向於使用者的工作上下文。使用者的原始資料看上去將其他相關資料和相關服務拉向使用者,因此「試用」是客戶端和使用者之間的預設互動模式。
在一些實施例中,對於模式擴展,實施例將屬性取樣強制轉換成模式上下文同義詞標準形式並且隨後建議最流行的擴展。對於資料擴展,一些實施例將屬性取樣強制轉換成模式上下文同義詞標準形式,建立類似集合的列表,並使用取樣/屬性取樣來檢視最佳匹配。在一些實施例中,至於共享實體,使用屬性取樣來識別導致以下X線匹配的實體類型:等時線、位置線、部分線等。當然,此等細節在每一個實施例中並非是必需的。
在一些實施例中,不需要屬性取樣。一些實施例將外部集合上的確切屬性名稱值與使用者的本端資料集相匹配,並且隨後將彼等匹配的集合作為所建議的外部資料返回給試算表使用者以供「試用」。
經配置的媒體
一些實施例包括經配置的電腦可讀取儲存媒體112。媒體112可包括盤(磁片、光碟,或其他)、RAM、EEPROM或其他ROM及/或其他可配置記憶體,特別包括非瞬態電腦可讀取媒體(而不是有線和其他傳播信號媒體)。經配置的儲存媒體可以特別地是諸如CD、DVD或快閃記憶體之類的可移除式儲存裝置媒體114。可以是可移除或不可移除並且可以是揮發性或非揮發性的通用記憶體可被配置成使用資料118和指令116形式的從可移除媒體114及/或諸如網路連接等另一源讀取的諸如屬性取樣210、屬性取樣模組208、服務篩檢程式218、預動式資料集修改模組222及/或修改預覽模組224等項目來形成經配置的媒體的實施方式。經配置的媒體112能夠使電腦系統執行用於經由如本文描述的預動建議來變換資料集的程序步驟。如此,圖1到圖4說明圖示經配置的儲存媒體實施例和程序實施例,以及系統和程序實施例。具體而言,圖3及/或圖4中圖示的各程序步驟中的任一步驟或本文以其他方式教導的任一步驟可被用來說明配置儲存媒體來形成經配置的媒體實施例。
結論
儘管具體實施例在此處被明確示出並描述為程序、已配置的媒體或系統,但是可以理解,對一種類型的實施例的論述亦一般性地延伸到其他實施例類型。例如,結合圖3對程序的描述亦說明描述已配置的媒體,並說明描述類似於結合其他附圖所論述的彼等的系統和產品的操作。對一 個實施例的限制亦不一定適用於另一個實施例。具體而言,程序不一定僅限於在論述諸如已配置的記憶體之類的系統或產品時呈現的資料結構和方案。
不是圖中所圖示的每一項皆需要存在於每個實施例中。例如,並非每一個實施例皆需要屬性取樣。相反,實施例可以包含圖中未顯式地圖示的項。儘管一些可能性在此處經由具體實例在文字和附圖中示出,但是各實施例可以偏離此等實例。例如,實例的具體特徵可以被省略、重命名、以不同的方式封包、重複、不同地以硬體及/或軟體產生實體,或是在兩個或兩個以上實例中出現的特徵的混合。在某些實施例中,在一個位置處示出的功能亦可以在不同的位置處提供。
經由元件符號參考了附圖。在附圖或文字中與給定元件符號相關聯的措詞中的任何顯而易見的不一致性應該被理解為僅僅時拓寬該標記所引用的內容的範圍。
如此處所使用的,諸如「一」和「該」等術語包括了所指示的項目或步驟中的一或多個。具體而言,在申請專利範圍中,對一個項的引用一般表示至少一個此類項存在,並且對一個步驟的引用表示執行該步驟的至少一個實例。
標題是僅出於方便起見的;關於給定話題的資訊可在資訊標題指示該話題的節之外找到。
所提交的所有請求項和摘要是說明書的一部分。
儘管在附圖中圖示並在上文中描述了示例性實施例,但本領域一般技藝人士將明白,可作出多種修改而不脫離申 請專利範圍中闡明的原理和概念,且此等修改不需要涵蓋整個抽象概念。儘管用結構特徵及/或程序動作專用的語言描述了本主題,但可以理解,所附申請專利範圍中定義的主題不必限於申請專利範圍上面所描述的具體特徵或動作。不一定在給定定義或實例中識別的每一個手段或態樣皆在每個實施例中存在或使用。相反,所描述的具體特徵和動作是作為供當實現申請專利範圍時考慮的實例來公開的。
無法包圍整個抽象概念但落入請求項的等效技術方案的意義和範圍內的所有改變皆在法律所准許的最大程度內被包含在請求項範圍內。
102‧‧‧電腦系統
104‧‧‧使用者
106‧‧‧周邊設備
108‧‧‧電腦可讀取非瞬態儲存媒體
110‧‧‧邏輯處理器
112‧‧‧媒體
114‧‧‧媒體
116‧‧‧指令
118‧‧‧資料
120‧‧‧工具
122‧‧‧試算表
124‧‧‧瀏覽器
126‧‧‧資料集
128‧‧‧使用者工作上下文
130‧‧‧類型化屬性
132‧‧‧客戶端安全周界
202‧‧‧名稱
204‧‧‧資料類型
206‧‧‧儲存格
208‧‧‧屬性取樣模組
210‧‧‧屬性取樣
212‧‧‧資料集
214‧‧‧資料集
216‧‧‧指示
218‧‧‧服務篩檢程式
220‧‧‧候選服務
222‧‧‧資料集修改模組
224‧‧‧資料集修改預覽模組
300‧‧‧流程圖
302‧‧‧步驟
304‧‧‧步驟
306‧‧‧步驟
308‧‧‧步驟
310‧‧‧步驟
312‧‧‧步驟
314‧‧‧儲存格值
316‧‧‧步驟
318‧‧‧實體
320‧‧‧步驟
322‧‧‧介面
324‧‧‧介面能力
326/328‧‧‧步驟
330‧‧‧修改
332‧‧‧預覽
334‧‧‧回退
336‧‧‧步驟
338‧‧‧安全周界條件
340/342‧‧‧步驟
344/346‧‧‧場景
350‧‧‧步驟
352/354‧‧‧步驟
356/358‧‧‧步驟
360/362‧‧‧步驟
366‧‧‧步驟
368/370‧‧‧步驟
372/374‧‧‧步驟
402‧‧‧周界
404‧‧‧資訊
406‧‧‧客戶端
408‧‧‧屬性取樣引擎
410‧‧‧候選匹配
412‧‧‧使用者體驗
414‧‧‧資料服務
416‧‧‧資料表層服務
418‧‧‧資料表層
420‧‧‧試探法
422‧‧‧複合索引
424‧‧‧拍賣框架
426‧‧‧系統服務
428‧‧‧資料來源
430‧‧‧私有結構化資料
432‧‧‧資料
434‧‧‧資料
436‧‧‧知識服務
438‧‧‧試探法
將參考附圖提供更具體的描述。此等附圖只圖示選定的態樣,且因此不完全決定覆蓋或範圍。
圖1是圖示電腦系統並且亦圖示經配置的儲存媒體實施例的方塊圖,該電腦系統具有至少一個處理器、至少一個記憶體、至少一個試算表或瀏覽器或用於查看結構化資料集的其他應用以及可存在於多個網路節點上的操作環境中的其他項目;圖2是圖示示例體系結構中的結構化資料集管理的各態樣的方塊圖;圖3是圖示某一程序的各步驟和經配置的儲存媒體實施例的流程圖;及 圖4是圖示另一示例體系結構中的結構化資料集管理的各態樣的資料流圖。
402‧‧‧周界
404‧‧‧資訊
406‧‧‧客戶端
408‧‧‧屬性取樣引擎
410‧‧‧候選匹配
412‧‧‧使用者體驗
414‧‧‧資料服務
416‧‧‧資料表層服務
418‧‧‧資料表層
420‧‧‧試探法
422‧‧‧複合索引
424‧‧‧拍賣框架
426‧‧‧系統服務
428‧‧‧資料來源
430‧‧‧私有結構化資料
432‧‧‧資料
434‧‧‧資料
436‧‧‧知識服務
438‧‧‧試探法
126‧‧‧資料集

Claims (20)

  1. 一種用資料和指令配置的電腦可讀取儲存媒體,該等指令在被至少一個處理器執行時使該處理器執行一種用於管理結構化資料集的程序,該程序包括以下計算步驟:在一使用者工作上下文中獲取一感興趣的結構化資料集,該結構化資料集具有至少一個類型化屬性,每一個類型化屬性皆包括一列名稱和一相關聯的資料類型;將該結構化資料集強制轉換成具有至少一個與該結構化資料集共同的類型化屬性的一屬性取樣,該屬性取樣亦至少藉由下列特性所定義:該屬性取樣係為該結構化資料集的計算衍生,該屬性取樣不包含該結構化資料集的儲存格中的值的秘密性,該屬性取樣包括反映至少一個本端情況的計算調整,其中歷史生產性係為一本端情況,而企業政策亦為一本端情況;至少部分地基於該屬性取樣來識別至少一個匹配的資料集或資料集服務;及至少部分地基於該匹配的資料集來執行以下修改中的至少一個:(a)藉由至少部分地基於屬性頻繁項目集資訊來添加該匹配的資料集的至少一個類型化屬性來豐富該結構化資料集;(b)藉由添加該匹配的資料集的至少一行來豐富該結構化資料集; (c)藉由向該結構化資料集的一行添加該匹配的資料集的至少一個儲存格值來豐富該結構化資料集;(d)改變該結構化資料集的至少一個儲存格值以匹配該匹配的資料集或資料集服務的一儲存格值;或者(e)向該使用者工作上下文添加該匹配的資料集,其中該匹配的資料集與該結構化資料集共享一實體且不與該結構化資料集共享一類型化屬性。
  2. 如請求項1述及之經配置的儲存媒體,其中該程序亦包括經由計算執行以下步驟中的至少一個來實施一介面能力:用一第一顏色顯示該結構化資料集的一儲存格值且同時用一不同的第二顏色顯示作為一所建議的修改的另一儲存格值;將一儲存格值從一第一值改為一第二值,顯示該第二值,並且隨後在顯示該第二值之後並未鍵入該第一值的情況下回退到該第一值;或顯示一修改預覽,亦即一使用者尚未接受的一可能修改的一結果的一圖像。
  3. 如請求項1述及之經配置的儲存媒體,其中該強制轉換步驟將該結構化資料集強制轉換成除了具有至少一個與該結構化資料集共同的類型化屬性之外具有以下至少一個的一屬性取樣:屬性類別、儲存格值。
  4. 如請求項1述及之經配置的儲存媒體,其中至少部分地基於該屬性取樣來識別至少一個匹配的資料集的該步驟遵守以下條件中的至少一個:一匹配的資料集識別經由計算在一客戶端周界內進行,該匹配的資料集是被帶到該客戶端周界內的一資料集;一匹配的資料集識別經由計算在一客戶端周界內進行,該匹配的資料集具有被帶到該客戶端周界內的一資料集屬性取樣;藉由在一客戶端周界外使用該結構化資料集屬性取樣而不將該結構化資料集本身帶到該客戶端周界外,一匹配的資料集識別經由計算在該客戶端周界外進行;藉由在一客戶端周界內使用一服務篩檢程式,一匹配的資料集識別經由計算在該客戶端周界內進行,該服務篩檢程式與位於該客戶端周界外的一服務進行通訊。
  5. 如請求項1述及之經配置的儲存媒體,其中該程序出現在一來自實例場景中,此意味著該結構化資料集包括具有對應的類型化屬性以及填充該行的一或多個儲存格值的至少一行,並且其中該程序包括該使用者工作上下文中的以下計算步驟中的至少一個:預動建議該結構化資料集的一附加屬性;預動建議該結構化資料集的一附加行; 預動建議對至少一個儲存格值的一改變;預動建議一附加儲存格值;或者預動建議一儲存格值刪除。
  6. 如請求項1述及之經配置的儲存媒體,其中該程序出現在一從零開始場景中,此意味著該結構化資料集包括至少一個類型化屬性並且一使用者正在從零開始建立一模式,並且其中該程序包括在該使用者工作上下文中至少部分地基於該使用者輸入的該屬性和屬性頻繁項目集資訊來經由計算建議該結構化資料集的附加屬性。
  7. 如請求項1述及之經配置的儲存媒體,其中該程序亦包括將一屬性取樣與一資料淨化服務匹配。
  8. 一種供一使用者使用一計算系統來在一使用者工作上下文中管理結構化資料集的程序,該程序包括以下步驟:向該使用者工作上下文中的該計算系統提供一原始結構化資料集,該結構化資料集包括具有對應的類型化屬性以及填充該行的一或多個儲存格值的至少一行;將該結構化資料集強制轉換成具有至少一個與該結構化資料集共同的類型化屬性的一屬性取樣,該屬性取樣亦至少藉由下列特性所定義:該屬性取樣係為該結構化資料集的計算衍生,該屬性取樣不包含該結構化資料集的儲存格中的值的秘密性,該屬性取樣包括反映至少一個本端情況 的計算調整,其中歷史生產性係為一本端情況,而企業政策亦為一本端情況;及藉由操作該計算系統來在不首先顯式地向該使用者工作上下文中的該計算系統識別一匹配的資料集的情況下至少部分地基於該匹配的資料集執行以下修改中的至少一個,修改該原始結構化資料集或該使用者工作上下文:(a)藉由添加該匹配的資料集的至少一個類型化屬性來豐富該結構化資料集;(b)藉由添加來自該匹配的資料集的至少一行來豐富該結構化資料集;(c)藉由向該結構化資料集的一行添加來自該匹配的資料集的至少一個儲存格值來豐富該結構化資料集;(d)改變該結構化資料集的至少一個儲存格值以匹配該匹配的資料集的一儲存格值;或者(e)向該使用者工作上下文添加該匹配的資料集,其中該匹配的資料集與該結構化資料集共享一實體且不與該結構化資料集共享一類型化屬性。
  9. 如請求項8述及之結構化資料集管理程序,其中該修改步驟包括操作該計算系統來執行該等豐富修改中之至少一個。
  10. 如請求項8述及之結構化資料集管理程序,其中該提供步驟包括在該計算系統內部的一試算表應用中打開該 結構化資料集。
  11. 如請求項8述及之結構化資料集管理程序,其中該程序亦包括使用者:在該提供步驟及該修改步驟之間接收來自該計算系統的一結構化資料集修改建議;接受該建議;及其中該修改步驟包括操作該計算系統以執行該建議。
  12. 如請求項8述及之結構化資料集管理程序,其中該使用者受雇於一企業及該程序包括藉由基於該企業的屬性頻繁項目集資訊來添加至少一個類型化屬性來豐富該結構化資料集。
  13. 如請求項8述及之結構化資料集管理程序,其中該程序亦包括藉由執行以下步驟中的至少一個來查看一介面能力:查看該結構化資料集中的一第一顏色的一儲存格值,並同時查看一不同的第二顏色的作為一所建議的修改的另一儲存格值;查看存在一修改建議的一顏色指示;將一儲存格值從一第一值改為一第二值,查看該第二值,並且隨後在查看該第二值之後並未鍵入該第一值的情況下回退到該第一值;或者 查看一修改預覽,亦即查看該使用者尚未接受的一修改建議的一結果的一圖像。
  14. 如請求項8述及之結構化資料集管理程序,其中該程序亦包括下列步驟中的至少一個:選擇一客戶端周界來限制該結構化資料集的分發;確認一先前對用於限制該結構化資料集的分發的一客戶端周界的人類或自動化選擇;選擇一資料淨化服務來建議對該結構化資料集的儲存格值的改變;確認一先前對用於建議對該結構化資料集的儲存格值的改變的一資料淨化服務的人類或自動化選擇;選擇一資料豐富服務來建議對該結構化資料集的豐富;確認一先前對用於建議對該結構化資料集的豐富的一資料豐富服務的人類或自動化選擇;選擇一共享實體資料集服務來建議與該結構化資料集共享一實體的資料集;或者確認一先前對用於建議與該結構化資料集共享一實體的資料集的一共享實體資料集服務的人類或自動化選擇。
  15. 一種用於管理結構化資料集的計算系統,該系統包括:一本端邏輯處理器; 與該本端邏輯處理器進行操作上通訊的一局部記憶體;常駐在該局部記憶體中並具有至少一個類型化屬性的一結構化資料集,每一個類型化屬性皆包括一列名稱和一相關聯的資料類型;常駐在該局部記憶體中並且具有指令的一結構化資料集屬性取樣模組,該等指令在由該本端邏輯處理器執行時將自動將該結構化資料集強制轉換成具有至少一個與該結構化資料集共同的類型化屬性的一屬性取樣;常駐在該局部記憶體中的該結構化資料集的該屬性取樣,該屬性取樣至少具有下列特性:該屬性取樣係為該結構化資料集的計算衍生,該屬性取樣不包含該結構化資料集的儲存格中的值的秘密性,該屬性取樣包括反映至少一個本端情況的計算調整,其中歷史生產性係為一本端情況,而企業政策亦為一本端情況;及常駐在該局部記憶體中的一指示,該指示基於該屬性取樣來指示不一定常駐在該局部記憶體中的一候選資料集是否是該結構化資料集的一匹配的資料集。
  16. 如請求項15述及之系統,其中該局部記憶體完全位於一安全客戶端周界內及其中以下各項中的至少一個亦常駐在該記憶體中,但不一定是局部記憶體中,亦即亦在該安全客戶端周界內:該候選資料集、該候選資料集的一屬性取樣。
  17. 如請求項15述及之系統,亦包括一包含指令的服務篩檢程式,該等指令在由一處理器執行時將預動識別一服務,該服務與該屬性取樣兼容及該服務將提供以下各項的至少一個:資料淨化、資料去重複、資料集匹配、資料集值擴展和資料集模式擴展。
  18. 如請求項15述及之系統,亦包括常駐在該記憶體中並具有指令的一結構化資料集修改模組,該等指令在由該處理器執行時將自動並預動基於該屬性取樣來定位一匹配的資料集,並基於該匹配的資料集來執行以下修改中的至少一個:(a)藉由基於屬性頻繁項目集資訊添加至少一個類型化屬性來豐富該結構化資料集;(b)藉由添加來自該匹配的資料集的至少一行來豐富該結構化資料集;(c)藉由向該結構化資料集的一行添加該匹配的資料集的至少一個儲存格值來豐富該結構化資料集;或者(d)淨化該結構化資料集的至少一個儲存格值。
  19. 如請求項15述及之系統,亦包括一結構化資料集修改預覽模組,該模組常駐在該記憶體中並具有指令,該等指令在由該處理器執行時將自動提供針對該匹配的資料集的一修改的一預覽。
  20. 如請求項15述及之系統,其中該系統包括常駐在該局部記憶體中的指令,該等指令在由該本端處理器執行時將執行以下各項中的至少一個:經由顏色標記來顯示對該結構化資料集的一所建議的糾正的一高置信度;顯示一匹配資料集的至少一部分而無需基於該匹配的資料集的對該結構化資料集的修改;顯示一匹配資料集的至少一部分而無需基於該匹配的資料集提供對該結構化資料集的修改;顯示一匹配資料集的至少一部分而無需基於該匹配的資料集執行對該結構化資料集的修改;提供藉由將一游標懸停在該結構化資料集上方來控制一修改預覽特徵;或提供控制對該結構化資料集中的多個儲存格的批量修改的一上下文選單。
TW101138922A 2011-10-28 2012-10-22 資料集和資料服務的上下文趨向 TWI549006B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/284,140 US8538934B2 (en) 2011-10-28 2011-10-28 Contextual gravitation of datasets and data services

Publications (2)

Publication Number Publication Date
TW201322024A TW201322024A (zh) 2013-06-01
TWI549006B true TWI549006B (zh) 2016-09-11

Family

ID=47928129

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101138922A TWI549006B (zh) 2011-10-28 2012-10-22 資料集和資料服務的上下文趨向

Country Status (5)

Country Link
US (1) US8538934B2 (zh)
EP (1) EP2771810A4 (zh)
CN (1) CN102999561B (zh)
TW (1) TWI549006B (zh)
WO (1) WO2013062877A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582555B2 (en) * 2012-09-06 2017-02-28 Sap Se Data enrichment using business compendium
US9619668B2 (en) * 2013-09-16 2017-04-11 Axis Ab Managing application data in distributed control systems
CN103605543B (zh) * 2013-11-19 2017-06-06 北京国双科技有限公司 验证属性转换方法和装置
US10824799B2 (en) * 2014-06-30 2020-11-03 Microsoft Technology Licensing, Llc Summary data autofill
US10976907B2 (en) * 2014-09-26 2021-04-13 Oracle International Corporation Declarative external data source importation, exportation, and metadata reflection utilizing http and HDFS protocols
US10210246B2 (en) * 2014-09-26 2019-02-19 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
US10891272B2 (en) 2014-09-26 2021-01-12 Oracle International Corporation Declarative language and visualization system for recommended data transformations and repairs
US9836488B2 (en) 2014-11-25 2017-12-05 International Business Machines Corporation Data cleansing and governance using prioritization schema
CN105786860B (zh) 2014-12-23 2020-07-07 华为技术有限公司 一种数据建模中的数据处理方法及装置
US11461368B2 (en) 2015-06-23 2022-10-04 Micro Focus Llc Recommending analytic tasks based on similarity of datasets
US10685173B2 (en) * 2015-08-17 2020-06-16 International Business Machines Corporation Formatting tables with complex patterns
US20170052988A1 (en) * 2015-08-20 2017-02-23 International Business Machines Corporation Normalizing values in data tables
JP6184641B1 (ja) * 2016-02-26 2017-08-23 株式会社日立製作所 時系列データと分析データとのうちの少なくとも一部を入力データとした分析処理を実行する分析システム及び分析方法
US10657098B2 (en) 2016-07-08 2020-05-19 International Business Machines Corporation Automatically reorganize folder/file visualizations based on natural language-derived intent
US10445062B2 (en) 2016-09-15 2019-10-15 Oracle International Corporation Techniques for dataset similarity discovery
US10565222B2 (en) 2016-09-15 2020-02-18 Oracle International Corporation Techniques for facilitating the joining of datasets
US10650000B2 (en) 2016-09-15 2020-05-12 Oracle International Corporation Techniques for relationship discovery between datasets
US10585888B2 (en) 2016-10-20 2020-03-10 Microsoft Technology Licensing, Llc Join with predictive merging of multiple columns
US10546055B2 (en) 2016-10-20 2020-01-28 Microsoft Technology Licensing, Llc Join with format modification by example
US10394815B2 (en) 2016-10-20 2019-08-27 Microsoft Technology Licensing, Llc Join with predictive granularity modification by example
WO2018146492A1 (en) * 2017-02-10 2018-08-16 Count Technologies Ltd Computer-implemented method of querying a dataset
JP6245783B1 (ja) * 2017-05-02 2017-12-13 サスメド株式会社 セキュリティシステムおよびこれに用いるノード装置
TWI649660B (zh) * 2017-05-05 2019-02-01 張漢威 資料分析系統及其分析方法
US10810472B2 (en) 2017-05-26 2020-10-20 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
US10885056B2 (en) 2017-09-29 2021-01-05 Oracle International Corporation Data standardization techniques
US10936599B2 (en) 2017-09-29 2021-03-02 Oracle International Corporation Adaptive recommendations
US11226974B2 (en) * 2018-05-10 2022-01-18 Sap Se Remote data blending
CN109522313B (zh) * 2018-10-15 2020-11-24 深圳云天励飞技术有限公司 搜索服务器刷索引的方法、装置、设备及可读存储介质
US11727021B2 (en) * 2018-12-14 2023-08-15 Tibco Software Inc. Process control tool for processing big and wide data
US20210165786A1 (en) * 2019-10-02 2021-06-03 Infosum Limited Accessing datasets
US11444893B1 (en) 2019-12-13 2022-09-13 Wells Fargo Bank, N.A. Enhanced chatbot responses during conversations with unknown users based on maturity metrics determined from history of chatbot interactions
CN117812151B (zh) * 2024-02-23 2024-04-26 中国人民公安大学 一种支持多平台功能提取与统建的系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1387293A1 (en) * 2002-08-01 2004-02-04 Sun Microsystems, Inc. Data structure manipulation system
TW200534702A (en) * 2004-01-08 2005-10-16 Toshiba Kk Information recording medium, information recording method, information playback method, information recording apparatus, and information playback apparatus
US20060212469A1 (en) * 2005-03-18 2006-09-21 Microsoft Corporation Method and system to associate cell and item metadata

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893123A (en) * 1995-06-22 1999-04-06 Tuinenga; Paul W. System and method of integrating a spreadsheet and external program having output data calculated automatically in response to input data from the spreadsheet
US6032153A (en) * 1997-11-13 2000-02-29 Electric Data Systems Corporation Method and system for maintaining persistence in a shared object system
US6460059B1 (en) * 1998-08-04 2002-10-01 International Business Machines Corporation Visual aid to simplify achieving correct cell interrelations in spreadsheets
US6754666B1 (en) * 1999-08-19 2004-06-22 A2I, Inc. Efficient storage and access in a database management system
US6873990B2 (en) 2001-02-07 2005-03-29 International Business Machines Corporation Customer self service subsystem for context cluster discovery and validation
EP1423804A4 (en) * 2001-08-10 2006-11-08 Datavine Res Services METHOD AND APPARATUS FOR ACCESSING, INTEGRATION, AND ANALYSIS OF HETEROGENEOUS DATA SOURCES BY HANDLING METADATA OBJECTS
US8046343B2 (en) * 2001-09-29 2011-10-25 Siebel Systems, Inc. Computing system and method for automatic completion of pick field
EP1367503A1 (en) * 2002-05-24 2003-12-03 Sun Microsystems, Inc. Method for displaying and modifying a relational database schema
US7711675B2 (en) * 2002-07-22 2010-05-04 Microsoft Corporation Database simulation of data types
US7606255B2 (en) * 2003-01-08 2009-10-20 Microsoft Corporation Selectively receiving broadcast data according to one of multiple data configurations
US7117222B2 (en) * 2003-03-13 2006-10-03 International Business Machines Corporation Pre-formatted column-level caching to improve client performance
US7698683B1 (en) * 2003-03-18 2010-04-13 Troux Technologies Adaptive system for dynamic object-oriented schemas
US7363581B2 (en) * 2003-08-12 2008-04-22 Accenture Global Services Gmbh Presentation generator
WO2005050481A1 (en) * 2003-10-21 2005-06-02 United Parcel Service Of America, Inc. Data structure and management system for a superset of relational databases
US7512599B2 (en) * 2004-01-13 2009-03-31 Oracle International Corporation Query duration types
US20050262070A1 (en) * 2004-05-19 2005-11-24 Christensen Barbara A Method and apparatus for combining of information across multiple datasets in a JavaScript environment
US7386565B1 (en) * 2004-05-24 2008-06-10 Sun Microsystems, Inc. System and methods for aggregating data from multiple sources
US20060010367A1 (en) * 2004-07-09 2006-01-12 Juergen Sattler System and method for spreadsheet data integration
US7415481B2 (en) * 2004-09-30 2008-08-19 Microsoft Corporation Method and implementation for referencing of dynamic data within spreadsheet formulas
EP1872229A4 (en) * 2005-04-07 2017-08-02 Insightful Corporation Method and system for handling large data sets in a statistical language
US20060242104A1 (en) * 2005-04-21 2006-10-26 Microsoft Corporation Systems and methods for manipulating data in a data storage system
WO2006116612A2 (en) * 2005-04-27 2006-11-02 Intel Corporation Method, system and apparatus for a parser for use in the processing of structured documents
US7975019B1 (en) * 2005-07-15 2011-07-05 Amazon Technologies, Inc. Dynamic supplementation of rendered web pages with content supplied by a separate source
EP1755050A1 (en) * 2005-08-18 2007-02-21 Sap Ag A data processing system and method of storing a dataset having a hierarchical data structure in a database
US20070073674A1 (en) * 2005-09-26 2007-03-29 Bea Systems, Inc. System and method for providing federated events for content management systems
US20070079282A1 (en) * 2005-09-30 2007-04-05 Pawan Nachnani Browser based designer and player
US20070078873A1 (en) * 2005-09-30 2007-04-05 Avinash Gopal B Computer assisted domain specific entity mapping method and system
US20070100862A1 (en) * 2005-10-23 2007-05-03 Bindu Reddy Adding attributes and labels to structured data
US7895223B2 (en) 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US20070156519A1 (en) 2005-12-30 2007-07-05 Shai Agassi Method and system for providing sponsored content based on previous provided content
US20080114733A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation User-structured data table indexing
US7962443B2 (en) * 2007-02-08 2011-06-14 Interactive Documents, Llc Method and system for replacing data in a structured design template
WO2008107338A1 (fr) * 2007-02-23 2008-09-12 Enrico Maim Procedes d'extraction, de combinaison, de synthese et de visualisation de donnees multidimensionnelles provenant de differentes sources
US20080228700A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Attribute Combination Discovery
US20090089269A1 (en) * 2007-10-02 2009-04-02 Jacqueline Linder Method and system for managing information in a database
JP2010039966A (ja) * 2008-08-08 2010-02-18 Hitachi Ltd データ管理方式
KR101661532B1 (ko) * 2008-12-02 2016-09-30 아브 이니티오 테크놀로지 엘엘시 데이터 관리 시스템 내의 데이터 집합의 맵핑 인스턴스
US8738618B2 (en) * 2008-12-12 2014-05-27 At&T Intellectual Property I, L.P. Methods and systems to estimate query responses based on data set sketches
US8341196B2 (en) 2009-11-23 2012-12-25 Nokia Corporation Method and apparatus for creating a contextual model based on offline user context data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1387293A1 (en) * 2002-08-01 2004-02-04 Sun Microsystems, Inc. Data structure manipulation system
TW200534702A (en) * 2004-01-08 2005-10-16 Toshiba Kk Information recording medium, information recording method, information playback method, information recording apparatus, and information playback apparatus
US20060212469A1 (en) * 2005-03-18 2006-09-21 Microsoft Corporation Method and system to associate cell and item metadata

Also Published As

Publication number Publication date
US8538934B2 (en) 2013-09-17
CN102999561B (zh) 2015-11-18
TW201322024A (zh) 2013-06-01
CN102999561A (zh) 2013-03-27
EP2771810A1 (en) 2014-09-03
WO2013062877A1 (en) 2013-05-02
US20130110792A1 (en) 2013-05-02
EP2771810A4 (en) 2015-08-12

Similar Documents

Publication Publication Date Title
TWI549006B (zh) 資料集和資料服務的上下文趨向
US11423359B2 (en) Managing tasks in a content management system
US11989694B2 (en) Managing projects in a content management system
US11704321B2 (en) Techniques for relationship discovery between datasets
US11200248B2 (en) Techniques for facilitating the joining of datasets
US11163527B2 (en) Techniques for dataset similarity discovery
US10296192B2 (en) Dynamic visual profiling and visualization of high volume datasets and real-time smart sampling and statistical profiling of extremely large datasets
US20190138345A1 (en) Information based on run-time artifacts in a distributed computing cluster
US20160085389A1 (en) Knowledge automation system thumbnail image generation
CN116108826A (zh) 用于设计者的智能改变总结
US20160086499A1 (en) Knowledge brokering and knowledge campaigns
US10503743B2 (en) Integrating search with application analysis
US10877984B1 (en) Systems and methods for filtering and visualizing large scale datasets
US11893001B2 (en) Systems and methods for storing blend objects