TWI743092B - 資料表的識別方法、裝置和系統 - Google Patents

資料表的識別方法、裝置和系統 Download PDF

Info

Publication number
TWI743092B
TWI743092B TW106107243A TW106107243A TWI743092B TW I743092 B TWI743092 B TW I743092B TW 106107243 A TW106107243 A TW 106107243A TW 106107243 A TW106107243 A TW 106107243A TW I743092 B TWI743092 B TW I743092B
Authority
TW
Taiwan
Prior art keywords
data table
data
fields
dependency relationship
tables
Prior art date
Application number
TW106107243A
Other languages
English (en)
Other versions
TW201810083A (zh
Inventor
潘旻
徐寧
王偉
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201810083A publication Critical patent/TW201810083A/zh
Application granted granted Critical
Publication of TWI743092B publication Critical patent/TWI743092B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明實施例提供了一種資料表的識別方法、裝置和系統,所述方法包括:獲取資料表之間的第一依賴關係;依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;獲取所述資料表中的一個或多個欄位之間的第二依賴關係;依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;依據所述關聯度,對所述資料表進行識別,使得在確定資料表的關聯度時從欄位細微性出發,透過欄位的使用情況、欄位本身的屬性、資料表的距離、資料表的連通性等維度,能夠科學合理地衡量出資料表之間的關聯度。

Description

資料表的識別方法、裝置和系統
本發明關於資訊技術領域,特別是關於一種資料表的識別方法、一種資料表關聯度的確定方法、一種資料表的識別裝置、一種資料表關聯度的確定裝置和一種資料表的識別系統。
對於大資料,業界提出了3V特徵,即規模性(Volumn)、高速性(Velocity)和多樣性(Variety)。隨著近幾年的發展,大資料的儲存、計算能力都取得了不錯的發展,目前,迫切需要解決的就是大資料的多樣性。為了滿足大資料的多樣性要求,其中一種解決方案就是資料交換。資料交換可以在不同公司之間進行,也可以在同一公司內部不同業務部門之間進行。資料交換的具體形式就是資料倉庫中或者雲計算環境下不同資料表之間的相互訪問。在日常業務過程中,為了滿足各項業務對於資料多樣性的需求,一張結果資料表的組成也許需要依賴多個業務部門的資料表甚至是不同公司開放出來的資料表,但是,在資料交換和互訪問中,不同的資料表對於滿足業務需求 的結果資料表的重要性可能不同,如何識別出具有較高重要性的資料表,以便重點運維和重點保障便成了大資料時代的一項重要任務。由於對於資料表重要性的識別主要是透過資料表的關聯度來確定的,因此,各部門、各公司提供的資料對於滿足業務需求的結果資料表的關聯度大小如何確定,就成為資料互訪問中資料交換價值衡量與計量的關鍵。
通常,資料表的儲存可以透過資料倉庫來實現,資料倉庫中往往存在著成千上萬的資料表,而每一張資料表中又會有數十個或者數百個欄位。在某一具體的業務情況中,為了達到具體的分析需求,可以將多張資料表之間的依賴關係透過一個複雜的有向圖來表示。如圖1所示,是一種以資料表為節點的有向無環圖的示意圖。在圖1中,圓圈代表資料表,圓圈中的字母代表資料表的名稱,例如資料表A,資料表B等;圓圈旁注釋塊中字母代表資料表中的欄位名,例如資料表A中有欄位有a1、a2、a3和a4;兩個圓圈之間帶有方向的線段代表兩個資料表之間存在著掃描/依賴關係,例如從資料表A到資料表C的箭頭,表示資料表A為資料表C貢獻了欄位a1和欄位a2兩個欄位,也可以說資料表C的產生需要依賴資料表A的欄位a1和欄位a2。
已有技術在計算兩張資料表之間的關聯度時,分為兩種情況分別計算:一種是兩張資料表存在直接依賴關係,例如圖1中資料表A與資料表C,而另一種則是兩張資料 表存在間接依賴關係,例如圖1中資料表A與資料表E。
對於存在直接依賴關係的資料表,已有技術按照貢獻的欄位個數占比來計算關聯度。例如在圖1中,在計算資料表A與資料表C之間的關聯度時,首先確認資料表C所依賴的資料表包括資料表A和資料表B,其中資料表A為資料表C貢獻了2個欄位,而資料表B則為資料表C只貢獻了1個欄位,因此資料表A和資料表B對資料表C的關聯度比例為2:1,即資料表A對資料表C的關聯度為2/3,資料表B對資料表C的關聯度為1/3。
對於不存在直接依賴關係的資料表,已有技術在計算關聯度時需要透過中間資料表,將間接依賴關係轉化為存在直接關係的資料連結來進行計算。例如圖1中資料表A對資料表E的關聯度,需要首先計算資料表A對資料表C的關聯度,以及,資料表C對資料表E的關聯度。由於資料表A對資料表C的關聯度為2/3,資料表C對資料表E的關聯度為1/4,則資料表A對資料表E的關聯度為2/3 * 1/4=1/6。
但是,按照上述已有技術計算的資料表之間的關聯度只能精確到資料表細微性,無法具體精確到資料表的欄位細微性,而事實上一張資料表內部的不同資料欄位的重要性存在較大差別的,已有技術的計算方法無法體現出這種差異。其次,對於存在直接依賴關係的父子表之間,已有技術只是簡單依據一張子表對父表貢獻的欄位數比例作為關聯度大小,考慮的因數過於簡單,無法完全精確的反映 實際的業務情況的區別。第三,對於只有間接依賴關係的父子表之間的關聯度計算,已有技術透過轉化為直接依賴的資料表之間關聯度的乘積,使得相隔一兩層的資料表之間關聯度會成指數級減小,關聯度衰減速率過快,無法體現資料表之間真實的貢獻情況。因此,按照已有技術對資料表的重要性進行識別的結果並不準確。
鑒於上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種資料表的識別方法、一種資料表關聯度的確定方法、一種資料表的識別裝置、一種資料表關聯度的確定裝置和相應的一種資料表的識別系統。
為了解決上述問題,本發明揭示了一種資料表的識別系統,所述系統包括終端和伺服器,其中:所述終端執行:接收針對資料業務的識別指令;將所述識別指令提交至伺服器;接收伺服器發送的所述資料業務所關聯的資料表,其中,所述資料業務所關聯的資料表由所述伺服器針對所述識別指令,透過識別所述資料業務所關聯的資料表獲得;展現所述資料業務所關聯的資料表;所述伺服器執行:接收針對資料業務的識別指令; 針對所述識別指令,對所述資料業務所關聯的資料表進行識別;輸出所述資料業務所關聯的資料表。
可選地,所述針對所述識別指令,對所述資料業務所關聯的資料表進行識別的步驟包括:獲取資料表之間的第一依賴關係;依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;獲取所述資料表中的一個或多個欄位之間的第二依賴關係;依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;依據所述關聯度,對所述資料表進行識別。
為了解決上述問題,本發明揭示了一種資料表的識別方法,包括:接收針對資料業務的識別指令;將所述識別指令提交至伺服器;接收伺服器發送的所述資料業務所關聯的資料表,其中,所述資料業務所關聯的資料表由所述伺服器針對所述識別指令,透過識別所述資料業務所關聯的資料表獲得;展現所述資料業務所關聯的資料表。
為了解決上述問題,本發明揭示了一種資料表的識別 方法,包括:接收由終端提交的針對資料業務的識別指令;針對所述識別指令,識別所述資料業務所關聯的資料表;向終端發送所述資料業務所關聯的資料表。
可選地,所述針對所述識別指令,識別所述資料業務所關聯的資料表的步驟包括:獲取資料表之間的第一依賴關係;依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;獲取所述資料表中的一個或多個欄位之間的第二依賴關係;依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;依據所述關聯度,對所述資料表進行識別。
可選地,所述依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目的步驟包括:針對所述第一依賴關係,構建所述資料表之間的有向無環圖;統計所述有向無環圖中的路徑長度和路徑數目。
可選地,所述針對所述第一依賴關係,構建所述資料表之間的有向圖的步驟包括: 按照所述第一依賴關係所對應的順序,構建以所述資料表為節點的有向圖;刪除所述有向圖中的環,獲得所述資料表之間的有向無環圖。
可選地,所述統計所述有向無環圖中的路徑長度和路徑數目的步驟包括:統計所述有向無環圖中的第一資料表與第二資料表之間的一條或多條路徑的長度,以及,所述第一資料表到任一資料表的路徑數目,和,所述第一資料表到任一資料表且經過第二資料表的路徑數目。
可選地,所述依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數的步驟包括:獲取所述一個或多個欄位在預設時間段內的使用次數,所述一個或多個欄位具有對應的欄位等級;根據所述使用次數,和/或,欄位等級,確定所述一個或多個欄位的重要性係數,其中,所述一個或多個欄位的重要性係數與所述使用次數,和/或,所述欄位等級正相關。
可選地,所述採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度的步驟包括:採用所述第一資料表與第二資料表之間的一條或多條路徑的長度,確定第一資料表與第二資料表之間的距離係數;採用所述第一資料表到任一資料表的路徑數目,和, 所述第一資料表到任一資料表且經過第二資料表的路徑數目,確定第一資料表與第二資料表之間的連通係數;採用所述第一資料表與第二資料表之間的距離係數,所述第一資料表與第二資料表之間的連通係數,以及第一資料表中的一個或多個欄位的重要性係數,第二資料表中的一個或多個欄位的重要性係數,確定第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,所述第一資料表中的一個或多個欄位與第二資料表中的一個或多個欄位具有依賴關係;採用所述第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,確定第一資料表對第二資料表的關聯度。
可選地,所述依據所述關聯度,對所述資料表進行識別的步驟包括:按照所述關聯度的大小,識別出資料業務所需的多張資料表。
可選地,所述按照所述關聯度的大小,識別出資料業務所需的多張資料表的步驟包括:分別獲取所述資料業務所需的資料表的關聯度大小;根據所述關聯度大小,從所述資料業務所需的資料表中篩選出預設數量的多張資料表。
為了解決上述問題,本發明揭示了一種資料表的識別方法,包括:獲取資料表之間的第一依賴關係; 依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;獲取所述資料表中的一個或多個欄位之間的第二依賴關係;依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;依據所述關聯度,對所述資料表進行識別。
為了解決上述問題,本發明揭示了一種資料表關聯度的確定方法,包括:獲取資料表之間的第一依賴關係;依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;獲取所述資料表中的一個或多個欄位之間的第二依賴關係;依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度。
為了解決上述問題,本發明揭示了一種資料表的識別裝置,包括:第一接收模組,用於接收針對資料業務的識別指令;提交模組,用於將所述識別指令提交至伺服器; 第二接收模組,用於接收伺服器發送的所述資料業務所關聯的資料表,其中,所述資料業務所關聯的資料表由所述伺服器針對所述識別指令,透過識別所述資料業務所關聯的資料表獲得;展現模組,用於展現所述資料業務所關聯的資料表。
為了解決上述問題,本發明揭示了一種資料表的識別裝置,包括:第三接收模組,用於接收由終端提交的針對資料業務的識別指令;識別模組,用於針對所述識別指令,識別所述資料業務所關聯的資料表;發送模組,用於向終端發送所述資料業務所關聯的資料表。
可選地,所述識別模組包括:第一依賴關係獲取子模組,用於獲取資料表之間的第一依賴關係;路徑長度和路徑數目統計子模組,用於依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;第二依賴關係獲取子模組,用於獲取所述資料表中的一個或多個欄位之間的第二依賴關係;重要性係數確定子模組,用於依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;關聯度確定子模組,用於採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度; 資料表識別子模組,用於依據所述關聯度,對所述資料表進行識別。
可選地,所述路徑長度和路徑數目統計子模組包括:有向無環圖構建單元,用於針對所述第一依賴關係,構建所述資料表之間的有向無環圖;路徑長度和路徑數目統計單元,用於統計所述有向無環圖中的路徑長度和路徑數目。
可選地,所述有向無環圖構建單元包括:無環圖構建子單元,用於按照所述第一依賴關係所對應的順序,構建以所述資料表為節點的有向圖;有向無環圖獲得子單元,用於刪除所述有向圖中的環,獲得所述資料表之間的有向無環圖。
可選地,所述路徑長度和路徑數目統計單元包括:路徑長度統計子單元,用於統計所述有向無環圖中的第一資料表與第二資料表之間的一條或多條路徑的長度,以及,路徑數目統計子單元,用於統計所述第一資料表到任一資料表的路徑數目,和,所述第一資料表到任一資料表且經過第二資料表的路徑數目。
可選地,所述重要性係數確定子模組包括:使用次數獲取單元,用於獲取所述一個或多個欄位在預設時間段內的使用次數,所述一個或多個欄位具有對應的欄位等級;重要性係數確定單元,用於根據所述使用次數,和/ 或,欄位等級,確定所述一個或多個欄位的重要性係數,其中,所述一個或多個欄位的重要性係數與所述使用次數,和/或,所述欄位等級正相關。
可選地,所述關聯度確定子模組包括:距離係數確定單元,用於採用所述第一資料表與第二資料表之間的一條或多條路徑的長度,確定第一資料表與第二資料表之間的距離係數;連通係數確定單元,用於採用所述第一資料表到任一資料表的路徑數目,和,所述第一資料表到任一資料表且經過第二資料表的路徑數目,確定第一資料表與第二資料表之間的連通係數;欄位關聯度確定單元,用於採用所述第一資料表與第二資料表之間的距離係數,所述第一資料表與第二資料表之間的連通係數,以及第一資料表中的一個或多個欄位的重要性係數,第二資料表中的一個或多個欄位的重要性係數,確定第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,所述第一資料表中的一個或多個欄位與第二資料表中的一個或多個欄位具有依賴關係;資料表關聯度確定單元,用於採用所述第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,確定第一資料表對第二資料表的關聯度。
可選地,所述資料表識別子模組包括:資料表識別單元,用於按照所述關聯度的大小,識別 出資料業務所需的多張資料表。
可選地,所述資料表識別單元包括:資料表關聯度獲取子單元,用於分別獲取所述資料業務所需的資料表的關聯度大小;資料表篩選子單元,用於根據所述關聯度大小,從所述資料業務所需的資料表中篩選出預設數量的多張資料表。
為了解決上述問題,本發明揭示了一種資料表的識別裝置,包括:第一依賴關係獲取模組,用於獲取資料表之間的第一依賴關係;路徑長度和路徑數目統計模組,用於依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;第二依賴關係獲取模組,用於獲取所述資料表中的一個或多個欄位之間的第二依賴關係;重要性係數確定模組,用於依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;關聯度確定模組,用於採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;資料表識別模組,用於依據所述關聯度,對所述資料表進行識別。
為了解決上述問題,本發明揭示了一種資料表關聯度的確定裝置,包括:第一依賴關係獲取模組,用於獲取資料表之間的第一 依賴關係;路徑長度和路徑數目統計模組,用於依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;第二依賴關係獲取模組,用於獲取所述資料表中的一個或多個欄位之間的第二依賴關係;重要性係數確定模組,用於依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;關聯度確定模組,用於採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度。
與背景技術相比,本發明實施例包括以下優點:
本發明實施例,在依據第一依賴關係統計所述資料表之間的路徑長度和路徑數目,以及,依據第二依賴關係確定一個或多個欄位的重要性係數後,採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度,並依據所述關聯度,對所述資料表進行識別,使得在確定資料表的關聯度時從欄位細微性出發,透過欄位的使用情況、欄位本身的屬性、資料表的距離、資料表的連通性等維度,能夠科學合理地衡量出資料表之間的關聯度。
其次,本發明實施例採用圖論的思想提出了資料表之間的連通係數和距離係數,作為資料表之間關聯度計量的兩個重要權重因數,並引入了資料表之間的層級關係,透過將兩張表之間的層級關係融入到距離係數中,來合理解決非直接依賴資料表之間的關聯度問題,避免了非直接依 賴資料表之間關聯度隨著層級的變化衰減太快的問題。
101、102、103、104、105、106‧‧‧方法步驟
201、202、203、204、205、206、207、208‧‧‧方法步驟
301、302、303、304、305‧‧‧方法步驟
401、402、403、404‧‧‧方法步驟
501、502、503‧‧‧方法步驟
601‧‧‧第一接收模組
602‧‧‧提交模組
603‧‧‧第二接收模組
604‧‧‧展現模組
701‧‧‧第三接收模組
702‧‧‧識別模組
703‧‧‧發送模組
801‧‧‧第一依賴關係獲取模組
802‧‧‧路徑長度和路徑數目統計模組
803‧‧‧第二依賴關係獲取模組
804‧‧‧重要性係數確定模組
805‧‧‧關聯度確定模組
806‧‧‧資料表識別模組
901‧‧‧第一依賴關係獲取模組
902‧‧‧路徑長度和路徑數目統計模組
903‧‧‧第二依賴關係獲取模組
904‧‧‧重要性係數確定模組
905‧‧‧關聯度確定模組
圖1是一種以資料表為節點的有向無環圖的示意圖;圖2是本發明的一種資料表的識別方法實施例一的步驟流程圖;圖3一種標注有欄位依賴關係的有向無環圖的示意圖;圖4是本發明的一種資料表的識別方法實施例二的步驟流程圖;圖5是一種具有環的有向圖的示意圖;圖6是本發明的一種資料表關聯度的確定方法實施例三的步驟流程圖;圖7是本發明的一種資料表的識別方法實施例四的步驟流程圖;圖8是本發明的一種資料表的識別方法實施例五的步驟流程圖;圖9是本發明的一種資料表的識別裝置實施例一的結構方塊圖;圖10是本發明的一種資料表的識別裝置實施例二的結構方塊圖;圖11是本發明的一種資料表的識別裝置實施例三的結構方塊圖;圖12是本發明的一種資料表關聯度的確定裝置實施 例四的結構方塊圖;圖13是本發明的一種資料表的識別系統的架構圖。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
參照圖2,示出了本發明的一種資料表的識別方法實施例一的步驟流程圖,具體可以包括如下步驟:
步驟101,獲取資料表之間的第一依賴關係;大資料環境下,資料會以一張張資料表的形式存在於資料倉庫或資料庫中,資料表是一種邏輯概念,可以認為資料表中的資料彼此之間都符合一定的邏輯規則或者邏輯條件。
在本發明實施例中,所述第一依賴關係可以是資料表之間的依賴關係或掃描關係。所述依賴關係或掃描關係是指某一資料表的產生,依賴于其他一張或多張資料表。在具體實現中,可以透過獲取資料倉庫中所有資料表之間的互訪問資料來確定第一依賴關係,資料的形式為<C:c,A:a>的二元組。意思是資料表C與資料表A存在掃描關係,並且資料表C的c欄位由資料表A的a欄位產生。
如圖1所示,資料表C的產生依賴於資料表A和資料表B,即可以認為資料表C與資料表A和資料表B具有相應的依賴關係或掃描關係。
步驟102,依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;路徑長度是指兩張具有依賴關係的資料表之間的距離長度,對於具有直接依賴關係的資料表而言,一般可以認為其路徑長度為1,而對於間接依賴的資料表,其路徑長度可以透過在兩張資料表之間具有間接依賴關係的資料表的張數來確定。通常,對於具有間接依賴關係的資料表,其路徑長度可能不是唯一的,即具有多條路徑,因此,其路徑數目也相應不唯一。
在本發明的一種較佳實施例中,所述依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目的步驟具體可以包括如下子步驟:子步驟1021,針對所述第一依賴關係,構建所述資料表之間的有向無環圖;子步驟1022,統計所述有向無環圖中的路徑長度和路徑數目。
如果在一張圖中,它的每條邊都是有方向的,則這張圖可以被稱為有向圖。有向圖中的邊是由兩個頂點組成的有序對,有序對通常用尖括弧表示,如<vi,vj>表示一條有向邊,其中vi是邊的始點,vj是邊的終點。<vi,vj>和<vj,vi>代表兩條不同的有向邊。在圖論中,如果一個有向圖無法從某個頂點出發經過若干條邊回到該點,則這個圖是一個有向無環圖。
在本發明實施例中,在獲得資料表之間的第一依賴關 係後,可以依據所述第一依賴關係,構建出以資料資料表為節點的有向無環圖,透過統計所述有向無環圖中的路徑長度和路徑數目,可以直觀地獲得兩張資料表之間的路徑長度和路徑數目。例如,在圖1中,資料表A和資料表E之間的路徑只有一條,即路徑數目為1,該路徑的路徑長度為2。資料的形式為:<A-C-E>。代表資料表A與資料表E之間存在一條路徑為A->C->E。
步驟103,獲取所述資料表中的一個或多個欄位的第二依賴關係;通常,一張資料表中可以包括有一個或多個欄位,由於資料表的產生可能依賴于其他一張或多張資料表,因此,資料表中的一個欄位的產生也可能依賴于其他一張或多張資料表中的一個或多個欄位。
如圖3所示,是一種標注有欄位依賴關係的有向無環圖的示意圖。具體地,欄位依賴關係可以以<C:c1,A:a1^A:a2>的資料形式表示,意思是:資料表C中的欄位c1由資料表A中的欄位a1、a2產生。
其次,第二依賴關係還可以包括欄位在預設時間段內被使用的次數,即該欄位被下游資料表訪問的次數,以及該資料表的直接下游表數目,相應的資料形式為<A:a1,3,2>,表示資料表A的欄位a1在預設時間段內被下游資料表訪問了3次,資料表A的直接下游資料表有2張。通常,預設時間段可以是一天。當然,在實際中也可以根據需要將預設時間段設定為兩天或半天,本發明對此 不作具體限定。
步驟104,依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;通常,資料表中的任一一個欄位都具有相應的欄位等級,不同的欄位具有不同的欄位。例如,欄位等級可以分為1,2,3,4四個級別,分別對應於可揭示、可共用、隱私資訊、絕密四種狀態的資料。其資料形式可以是<A:a1,1>,表示資料表A中的欄位a1的欄位等級為1級,即欄位a1可揭示。
在本發明的一種較佳實施例中,所述依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數的步驟具體可以包括如下子步驟:子步驟1041,獲取所述一個或多個欄位在預設時間段內的使用次數;子步驟1042,根據所述使用次數,和/或,欄位等級,確定所述一個或多個欄位的重要性係數。
在本發明實施例中,所述一個或多個欄位的重要性係數可以是與所述使用次數,和/或,所述欄位等級正相關。
在具體實現中,可以採用如下公式,確定所述一個或多個欄位的重要性係數:
Figure 106107243-A0202-12-0019-1
其中,level_weight(a i )為欄位a i 的欄位等級,use_cnt(a i )為預設時間段內欄位a i 的使用次數,n為所述資料表中的欄位數量,αβ為比例係數,0<αβ<1。
步驟105,採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;在本發明實施例中,路徑長度和路徑數目表示了資料表之間的關聯強度。例如,路徑長度越短,其聯繫越緊密;路徑數目越少,某一資料表對另一資料表越不可或缺。
因此,在確定獲得資料表中的一個或多個欄位的重要性係數後,可以進一步採用路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度。
步驟106,依據所述關聯度,對所述資料表進行識別。
在本發明實施例中,在確定獲得資料表之間的關聯度後,可以依據所述關聯度對資料表進行識別,具體地,可以按照所述關聯度的大小,識別出資料業務所需的多張資料表。例如,對於某一個資料業務,可能用到L張資料表,那麼在分別確定獲得所述L張資料表的關聯度後,可以進一步篩選出這L張資料表中關聯度較大的topK張資料表,然後對所述topK張資料表進行重點運維和重點保障,以確保資料表的資料品質和產出時間。
在本發明實施例中,在依據第一依賴關係統計所述資料表之間的路徑長度和路徑數目,以及,依據第二依賴關 係確定一個或多個欄位的重要性係數後,採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度,並依據所述關聯度,對所述資料表進行識別,使得在確定資料表的關聯度時從欄位細微性出發,透過欄位的使用情況、欄位本身的屬性、資料表的距離、資料表的連通性等維度,能夠科學合理地衡量出資料表之間的關聯度。
參照圖4,示出了本發明的一種資料表的識別方法實施例二的步驟流程圖,具體可以包括如下步驟:
步驟201,針對所述第一依賴關係,構建所述資料表之間的有向圖;在本發明實施例中,透過獲取資料倉庫中所有資料表之間的互訪問資料,可以構建出所述資料表之間的有向無環圖。
在本發明的一種較佳實施例中,所述針對所述第一依賴關係,構建所述資料表之間的有向圖的步驟具體可以包括如下子步驟:子步驟2011,按照所述第一依賴關係所對應的順序,構建以所述資料表為節點的有向圖;子步驟2012,刪除所述有向圖中的環,獲得所述資料表之間的有向無環圖。
在具體實現中,在獲得資料表之間的互訪問資料即第一依賴關係後,可以按照所述第一依賴關係所對應的順序,首先構建出以所述資料表為節點的有向圖,進而透過 刪除所述有向圖中的環,獲得資料表之間的有向無環圖。
如圖5所示,是一種具有環的有向圖的示意圖,其中,存在環ABCC以及環ABDA。
在具體實現中,可以透過堆疊的方法,去除有向圖中的環。以某一資料表為起點,在每一步的遍歷中,當判斷出現環時,可以透過刪除出現環的有向線段,以刪除環。例如,以資料表A為起點,但遍歷至ABCC時出現了環,此時可以透過刪除資料表C自身的有向線段刪除環,當遍歷至ABDA時,可以透過刪除資料表D與資料表A之間的有向線段刪除環。
步驟202,統計所述有向無環圖中的第一資料表與第二資料表之間的一條或多條路徑的長度,以及,所述第一資料表到任一資料表的路徑數目,和,所述第一資料表到任一資料表且經過第二資料表的路徑數目;在本發明實施例中,當需要確定第一資料表與第二資料表之間的關聯度時,可以首先在有向無環圖中統計出所述第一資料表與第二資料表之間的一條或多條路徑的長度,以及,所述第一資料表到任一資料表的路徑數目,和,所述第一資料表到任一資料表且經過第二資料表的路徑數目。
步驟203,確定所述資料表中一個或多個欄位的重要性係數;在具體實現中,可以首先獲取某一欄位在預設時間段內(通常為一天)的使用次數以及所述欄位的欄位等級, 然後採用如下公式,確定所述欄位的重要性係數:
Figure 106107243-A0202-12-0023-2
其中,level_weight(a i )為欄位a i 的欄位等級,use_cnt(a i )為預設時間段內欄位a i 的使用次數,n為所述資料表中的欄位數量,αβ為比例係數,0<αβ<1。
步驟204,採用所述第一資料表與第二資料表之間的一條或多條路徑的長度,確定第一資料表與第二資料表之間的距離係數;步驟205,採用所述第一資料表到任一資料表的路徑數目,和,所述第一資料表到任一資料表且經過第二資料表的路徑數目,確定第一資料表與第二資料表之間的連通係數;在本發明實施例中,在獲得資料表之間的路徑長度和路徑數目後,可以分別根據所述路徑長度和路徑數目,確定資料表之間的距離係數和連通係數。
在具體實現中,可以採用如下公式,確定第一資料表與第二資料表之間的距離係數:
Figure 106107243-A0202-12-0023-3
其中,step(A,B)表示第一資料表A到第二資料表B的一條路徑的長度,n為第一資料表A到第二資料表B的 路徑數目;可以採用如下公式,確定第一資料表與第二資料表之間的連通係數,連通係數越大可以表示資料表之間的連通性越強:
Figure 106107243-A0202-12-0024-4
其中,path_cnt(A,B,leaf)為第一資料表A到任一資料表且經過第二資料表B的路徑數目,path_cnt(A,null,leaf)為第一資料表A到任一資料表的路徑數目。
步驟206,採用所述第一資料表與第二資料表之間的距離係數,所述第一資料表與第二資料表之間的連通係數,以及第一資料表中的一個或多個欄位的重要性係數,第二資料表中的一個或多個欄位的重要性係數,確定第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度;在本發明實施例中,當分別獲得資料表之間的距離係數、連通係數,以及資料表中一個或多個欄位的重要性係數後,可以採用上述距離係數、連通係數,以及重要性係數,確定第一資料表中的一個或多個欄位與具有依賴關係的第二資料表中的一個或多個欄位之間的關聯度。
在具體實現中個,可以採用如下公式,確定第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度:
Figure 106107243-A0202-12-0025-5
其中,i=1...N表示與第一資料表A中的欄位a i 存在依賴關係的資料表,m=1...n表示在第二資料表B中,與第一資料表A中的欄位a i 存在依賴關係的欄位bmρλ為比例係數,0<ρλ<1。
weight(A,a i ,B,b i )可以代表資料表B中欄位b i 與資料表A中的a i 欄位具有依賴關係,以及欄位a i 與欄位b i 的關聯度大小。等式的右邊第一部分,代表的是資料表A與資料表B的綜合關聯度,綜合關聯度由兩個因數組成,分別是連通係數和關聯係數;等式的右邊第二部分,代表的是資料表B中欄位b i 在資料表B中與欄位a i 存在血緣關係的所有欄位中的權重。
步驟207,採用所述第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,確定第一資料表對第二資料表的關聯度;在本發明實施例中,在分別獲得一個或多個欄位的關聯度後,可以採用所述欄位之間的關聯度,確定資料表之間的關聯度。
在具體實現中,可以採用如下公式,確定第一資料表對第二資料表的關聯度:
Figure 106107243-A0202-12-0025-6
其中,M為在第一資料表A中,與第二資料表B中的欄位具有依賴關係的欄位數量,N為在第二資料表B中,與第一資料表A中的欄位具有依賴關係的欄位數量。
步驟208,按照所述關聯度的大小,識別出資料業務所需的多張資料表。
在本發明的一種較佳實施例中,所述按照所述關聯度的大小,識別出資料業務所需的多張資料表的步驟具體可以包括如下子步驟:子步驟2081,分別獲取所述資料業務所需的資料表的關聯度大小;子步驟2082,根據所述關聯度大小,從所述資料業務所需的資料表中篩選出預設數量的多張資料表。
在具體實現中,在確定獲得資料表之間的關聯度後,可以依據所述關聯度對資料表進行識別。例如,對於某一個資料業務,可能用到L張資料表,那麼在分別確定獲得所述L張資料表的關聯度後,可以進一步篩選出這L張資料表中關聯度較大的topK張資料表,然後對所述topK張資料表進行重點運維和重點保障,以確保資料表的資料品質和產出時間。
在本發明實施例中,採用圖論的思想提出了資料表之間的連通係數和距離係數,作為資料表之間關聯度計量的兩個重要權重因數,並引入了資料表之間的層級關係,透過將兩張表之間的層級關係融入到距離係數中,來合理解決非直接依賴資料表之間的關聯度問題,避免了非直接依 賴資料表之間關聯度隨著層級的變化衰減太快的問題。
參照圖6,示出了本發明的一種資料表關聯度的確定方法實施例三的步驟流程圖,具體可以包括如下步驟:步驟301,獲取資料表之間的第一依賴關係;步驟302,依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;步驟303,獲取所述資料表中的一個或多個欄位之間的第二依賴關係;步驟304,依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;步驟305,採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度。
由於步驟301-305與本發明的一種資料表的識別方法實施例一中的步驟101-105類似,相關之處參見資料表的識別方法實施例一的部分說明即可,本實施例在此不加以詳述。為了便於理解,下面以一個具體事例對資料表之間關聯度的確定方法作一說明。
以圖3所示的有向無環圖為例。
資料表之間的第一依賴關係可以表示如下:
a)<A,C>
b)<B,C>
c)<C,E>
d)<D,E>
e)<A,C,E>
f)<B,C,E>
欄位之間的第二依賴關係可以表示如下:
a)<C:c1,A:a1>
b)<C:c1,A:a2>
c)<C:c1,B:b1>
d)<C:c2,A:a3>
e)<C:c2,B:b2>
f)<C:c2,B:b3>
g)<E:e1,C:c1>
h)<E:e1,D:d2>
i)<E:e2,C:c2>
資料表中各欄位等級可以表示如下:
a)<A:a1,1>
b)<A:a2,1>
c)<A:a3,3>
d)<B:b1,2>
e)<B:b2,2>
f)<B:b3,3>
g)<C:c1,1>
h)<C:c2,3>
i)<D:d1,2>
j)<D:d2,3>
k)<E:c1,1>
l)<E:e2,2>
資料表欄位使用次數及下游資料表數量資料可以表示 如下:
a)<A:a1,2,1>
b)<A:a2,3,1>
c)<A:a3,1,1>
d)<B:b1,2,1>
e)<B:b2,1,1>
f)<B:b3,2,1>
g)<C:c1,1,1>
h)<C:c2,1,1>
i)<D:d1,2,1>
j)<D:d2,1,1>
k)<E:e1,0,0>
l)<E:e2,0,0>
1、確定資料表A與資料表E的連通係數:conn_ratio(A,E)=1/1=1
2、確定資料表A與資料表E的距離係數:length_ratio(A,E)=1/2
3、確定資料表A與資料表E的綜合關聯度(取比例係數為0.5)sum_score(A,E)=0.5 * 1+0.5 * 1/2=0.75
4、從圖3中可知,與資料表E中的e2欄位存在依賴關係的資料表A中的欄位為a3。此外,與資料表E存在 依賴關係的資料表除資料表A之外還有資料表C、B、D。因此:weight(A,a3,E,e2)=sum_score(A,E)/(sum_score(A,C)+sum_score(A,B)+sum_score(A,D)+sum_score(A,E))*(weight(a3)/(weight(a3)))=0.75/(1+0+0+0.75)* 1=3/7=0.43
5、由於資料表A與資料表E之間只在欄位a3與欄位e2之間存在依賴關係,因此attr(A,E)=0.43,即資料表A對資料表E的關聯度為0.43。
參照圖7,示出了本發明的一種資料表的識別方法實施例四的步驟流程圖,具體可以包括如下步驟:步驟401,接收針對資料業務的識別指令;步驟402,將所述識別指令提交至伺服器;步驟403,接收伺服器發送的所述資料業務所關聯的資料表,其中,所述資料業務所關聯的資料表由所述伺服器針對所述識別指令,透過識別所述資料業務所關聯的資料表獲得;步驟404,展現所述資料業務所關聯的資料表。
在本發明實施例中,當需要對資料業務所關聯的資料表進行識別時,可以向終端發送針對所述資料業務的識別指令,終端在接收到識別指令後,可以將所述識別指令提交至伺服器,由伺服器識別出所述資料業務所關聯的資料表,進而回饋至終端,終端在接收到伺服器回饋的所述資料業務所關聯的資料表後,可以在終端的使用者介面上展 現所述資料表。
參照圖8,示出了本發明的一種資料表的識別方法實施例五的步驟流程圖,具體可以包括如下步驟:步驟501,接收由終端提交的針對資料業務的識別指令;步驟502,針對所述識別指令,識別所述資料業務所關聯的資料表;步驟503,向終端發送所述資料業務所關聯的資料表。
在本發明實施例中,伺服器在接收到到由終端提交的針對某一資料業務的識別指令後,可以針對所述識別指令,識別出所述資料業務所關聯的資料表,然後向終端回饋所述資料表。
在本發明的一種較佳實施例中,所述針對所述識別指令,識別所述資料業務所關聯的資料表的步驟具體可以包括如下子步驟:子步驟5031,獲取資料表之間的第一依賴關係;子步驟5032,依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;子步驟5033,獲取所述資料表中的一個或多個欄位之間的第二依賴關係;子步驟5034,依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;子步驟5035,採用所述路徑長度、路徑數目,以 及,重要性係數,確定所述資料表之間的關聯度;子步驟5036,依據所述關聯度,對所述資料表進行識別。
由於子步驟5031-5036與本發明的一種資料表的識別方法實施例一中的步驟101-106類似,相關之處參見資料表的識別方法實施例一的部分說明即可,本實施例在此不加以詳述。
需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所關於的動作並不一定是本發明實施例所必須的。
參照圖9,示出了本發明的一種資料表的識別裝置實施例一的結構方塊圖,具體可以包括如下模組:第一接收模組601,用於接收針對資料業務的識別指令;提交模組602,用於將所述識別指令提交至伺服器;第二接收模組603,用於接收伺服器發送的所述資料業務所關聯的資料表,其中,所述資料業務所關聯的資料表可以是由所述伺服器針對所述識別指令,透過識別所述資料業務所關聯的資料表獲得;展現模組604,用於展現所述資料業務所關聯的資料 表。
參照圖10,示出了本發明的一種資料表的識別裝置實施例二的結構方塊圖,具體可以包括如下模組:第三接收模組701,用於接收由終端提交的針對資料業務的識別指令;識別模組702,用於針對所述識別指令,識別所述資料業務所關聯的資料表;發送模組703,用於向終端發送所述資料業務所關聯的資料表。
在本發明實施例中,所述識別模組702具體可以包括如下子模組:第一依賴關係獲取子模組7021,用於獲取資料表之間的第一依賴關係;路徑長度和路徑數目統計子模組7022,用於依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;第二依賴關係獲取模組子7023,用於獲取所述資料表中的一個或多個欄位的第二依賴關係;重要性係數確定子模組7024,用於依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;關聯度確定模組子7025,用於採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;資料表識別子模組7026,用於依據所述關聯度,對 所述資料表進行識別。
在本發明實施例中,所述路徑長度和路徑數目統計子模組7022具體可以包括如下單元:有向無環圖構建單元,用於針對所述第一依賴關係,構建所述資料表之間的有向無環圖;路徑長度和路徑數目統計單元,用於統計所述有向無環圖中的路徑長度和路徑數目。
在本發明實施例中,所述有向無環圖構建單元具體可以包括如下子單元:無環圖構建子單元,用於按照所述第一依賴關係所對應的順序,構建以所述資料表為節點的有向圖;有向無環圖獲得子單元,用於刪除所述有向圖中的環,獲得所述資料表之間的有向無環圖。
在本發明實施例中,所述路徑長度和路徑數目統計單元具體可以包括如下子單元:路徑長度統計子單元,用於統計所述有向無環圖中的第一資料表與第二資料表之間的一條或多條路徑的長度,以及,路徑數目統計子單元,用於統計所述第一資料表到任一資料表的路徑數目,和,所述第一資料表到任一資料表且經過第二資料表的路徑數目。
在本發明實施例中,所述重要性係數確定子模組7024具體可以包括如下單元:使用次數獲取單元,用於獲取所述一個或多個欄位在 預設時間段內的使用次數,所述一個或多個欄位可以具有對應的欄位等級;重要性係數確定單元,用於根據所述使用次數,和/或,欄位等級,確定所述一個或多個欄位的重要性係數,其中,所述一個或多個欄位的重要性係數與所述使用次數,和/或,所述欄位等級正相關。
在具體實現中,可以採用如下公式,確定所述一個或多個欄位的重要性係數:
Figure 106107243-A0202-12-0035-7
其中,level_weight(a i )為欄位a i 的欄位等級,use_cnt(a i )為預設時間段內欄位a i 的使用次數,n為所述資料表中的欄位數量。
在本發明實施例中,所述關聯度確定子模組7025具體可以包括如下單元:距離係數確定單元,用於採用所述第一資料表與第二資料表之間的一條或多條路徑的長度,確定第一資料表與第二資料表之間的距離係數;連通係數確定單元,用於採用所述第一資料表到任一資料表的路徑數目,和,所述第一資料表到任一資料表且經過第二資料表的路徑數目,確定第一資料表與第二資料表之間的連通係數;欄位關聯度確定單元,用於採用所述第一資料表與第 二資料表之間的距離係數,所述第一資料表與第二資料表之間的連通係數,以及第一資料表中的一個或多個欄位的重要性係數,第二資料表中的一個或多個欄位的重要性係數,確定第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,所述第一資料表中的一個或多個欄位與第二資料表中的一個或多個欄位具有依賴關係;資料表關聯度確定單元,用於採用所述第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,確定第一資料表對第二資料表的關聯度。
在本發明實施例中,可以採用如下公式,確定第一資料表與第二資料表之間的距離係數:
Figure 106107243-A0202-12-0036-8
其中,step(A,B)表示第一資料表A到第二資料表B的一條路徑的長度,n為第一資料表A到第二資料表B的路徑數量;可以採用如下公式,確定第一資料表與第二資料表之間的連通係數:
Figure 106107243-A0202-12-0036-9
其中,path_cnt(A,B,leaf)為第一資料表A到任一資料表且經過第二資料表B的路徑數目,path_cnt(A,null,leaf) 為第一資料表A到任一資料表的路徑數目;可以採用如下公式,確定第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度:
Figure 106107243-A0202-12-0037-10
其中,i=1...N表示與第一資料表A中的欄位a i 存在依賴關係的資料表,m=1...n表示在第二資料表B中,與第一資料表A中的欄位a i 存在依賴關係的欄位bm;可以採用如下公式,確定第一資料表對第二資料表的關聯度:
Figure 106107243-A0202-12-0037-11
其中,M為在第一資料表A中,與第二資料表B中的欄位具有依賴關係的欄位數量,N為在第二資料表B中,與第一資料表A中的欄位具有依賴關係的欄位數量。
在本發明實施例中,所述資料表識別子模組7026具體可以包括如下單元:資料表識別單元,用於按照所述關聯度的大小,識別出資料業務所需的多張資料表。
在本發明實施例中,所述資料表識別單元具體可以包括如下子單元: 資料表關聯度獲取子單元,用於分別獲取所述資料業務所需的資料表的關聯度大小;資料表篩選子單元,用於根據所述關聯度大小,從所述資料業務所需的資料表中篩選出預設數量的多張資料表。
參照圖11,示出了本發明的一種資料表的識別裝置實施例三的結構方塊圖,具體可以包括如下模組:第一依賴關係獲取模組801,用於獲取資料表之間的第一依賴關係;路徑長度和路徑數目統計模組802,用於依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;第二依賴關係獲取模組803,用於獲取所述資料表中的一個或多個欄位之間的第二依賴關係;重要性係數確定模組804,用於依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;關聯度確定模組805,用於採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;資料表識別模組806,用於依據所述關聯度,對所述資料表進行識別。
參照圖12,示出了本發明的一種資料表關聯度的確定裝置實施例四的結構方塊圖,具體可以包括如下模組:第一依賴關係獲取模組901,用於獲取資料表之間的 第一依賴關係;路徑長度和路徑數目統計模組902,用於依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;第二依賴關係獲取模組903,用於獲取所述資料表中的一個或多個欄位之間的第二依賴關係;重要性係數確定模組904,用於依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;關聯度確定模組905,用於採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
參照圖13,示出了本發明的一種資料表的識別系統的架構圖,所述系統可以包括終端和伺服器,所述終端可以執行如下動作:接收針對資料業務的識別指令;將所述識別指令提交至伺服器;接收伺服器發送的所述資料業務所關聯的資料表,其中,所述資料業務所關聯的資料表由所述伺服器針對所述識別指令,透過識別所述資料業務所關聯的資料表獲得;展現所述資料業務所關聯的資料表;所述伺服器可以執行如下動作: 接收針對資料業務的識別指令;針對所述識別指令,對所述資料業務所關聯的資料表進行識別;輸出所述資料業務所關聯的資料表。
在本發明的實施例中,所述針對所述識別指令,對所述資料業務所關聯的資料表進行識別的步驟具體可以包括如下子步驟:獲取資料表之間的第一依賴關係;依據所述第一依賴關係,統計所述資料表之間的路徑長度和路徑數目;獲取所述資料表中的一個或多個欄位之間的第二依賴關係;依據所述第二依賴關係,確定所述一個或多個欄位的重要性係數;採用所述路徑長度、路徑數目,以及,重要性係數,確定所述資料表之間的關聯度;依據所述關聯度,對所述資料表進行識別。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採 用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存媒體(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀媒體中的非永久性記憶體,隨機存取記憶體(RAM)和/或非易失性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀媒體的示例。電腦可讀媒體包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存媒體的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸媒體,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀媒體不包括暫態性的電腦可讀媒體(transitory media),如調變的資料信號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述 的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得透過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種資料表的識別方法、一種資料表關聯度的確定方法、一種資料表的識別裝置、一種資料表關聯度的確定裝置和一種資料表的識別系統,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (23)

  1. 一種資料表的識別系統,該系統包括終端和伺服器,其特徵在於:該終端執行:接收針對資料業務的識別指令;將該識別指令提交至伺服器;接收伺服器發送的該資料業務所關聯的資料表,其中,該資料業務所關聯的資料表由該伺服器針對該識別指令,透過識別該資料業務所關聯的資料表獲得;展現該資料業務所關聯的資料表;該伺服器執行:接收針對資料業務的識別指令;針對該識別指令,對該資料業務所關聯的資料表進行識別;以及輸出該資料業務所關聯的資料表,其中,該針對該識別指令,對該資料業務所關聯的資料表進行識別的步驟包括:獲取資料表之間的第一依賴關係;依據該第一依賴關係,統計該資料表之間的路徑長度和路徑數目;獲取該資料表中的一個或多個欄位之間的第二依賴關係;依據該第二依賴關係,確定該一個或多個欄位的重要性係數; 採用該路徑長度、路徑數目,以及,重要性係數,確定該資料表之間的關聯度;以及依據該關聯度,對該資料表進行識別。
  2. 一種資料表的識別方法,其特徵在於,該方法包括:接收針對資料業務的識別指令;將該識別指令提交至伺服器;接收伺服器發送的該資料業務所關聯的資料表,其中,該資料業務所關聯的資料表由該伺服器針對該識別指令,透過識別該資料業務所關聯的資料表獲得;以及展現該資料業務所關聯的資料表,其中,該資料業務所關聯的資料表為依據資料表之間的關聯度,對該資料表進行識別得到;該資料表之間的關聯度由路徑長度、路徑資料,以及一個或多個欄位的重要性係數確定;該一個或多個欄位的重要性係數依據獲取的該資料表中的一個或多個欄位之間的第二依賴關係確定;該資料表之間的路徑長度和路徑數目依據獲取的該資料表之間的第一依賴關係統計得到。
  3. 一種資料表的識別方法,其特徵在於,該方法包括:接收由終端提交的針對資料業務的識別指令;針對該識別指令,識別該資料業務所關聯的資料表;以及向終端發送該資料業務所關聯的資料表, 其中,該針對該識別指令,識別該資料業務所關聯的資料表的步驟包括:獲取資料表之間的第一依賴關係;依據該第一依賴關係,統計該資料表之間的路徑長度和路徑數目;獲取該資料表中的一個或多個欄位之間的第二依賴關係;依據該第二依賴關係,確定該一個或多個欄位的重要性係數;採用該路徑長度、路徑數目,以及,重要性係數,確定該資料表之間的關聯度;以及依據該關聯度,對該資料表進行識別。
  4. 根據申請專利範圍第3項所述的方法,其中,該依據該第一依賴關係,統計該資料表之間的路徑長度和路徑數目的步驟包括:針對該第一依賴關係,構建該資料表之間的有向無環圖;以及統計該有向無環圖中的路徑長度和路徑數目。
  5. 根據申請專利範圍第4項所述的方法,其中,該針對該第一依賴關係,構建該資料表之間的有向圖的步驟包括:按照該第一依賴關係所對應的順序,構建以該資料表為節點的有向圖;以及刪除該有向圖中的環,獲得該資料表之間的有向無環 圖。
  6. 根據申請專利範圍第4或5項所述的方法,其中,該統計該有向無環圖中的路徑長度和路徑數目的步驟包括:統計該有向無環圖中的第一資料表與第二資料表之間的一條或多條路徑的長度,以及該第一資料表到任一資料表的路徑數目,和,該第一資料表到任一資料表且經過第二資料表的路徑數目。
  7. 根據申請專利範圍第3項所述的方法,其中,該依據該第二依賴關係,確定該一個或多個欄位的重要性係數的步驟包括:獲取該一個或多個欄位在預設時間段內的使用次數,該一個或多個欄位具有對應的欄位等級;以及根據該使用次數,和/或,欄位等級,確定該一個或多個欄位的重要性係數,其中,該一個或多個欄位的重要性係數與該使用次數,和/或,該欄位等級正相關。
  8. 根據申請專利範圍第3項所述的方法,其中,該採用該路徑長度、路徑數目,以及,重要性係數,確定該資料表之間的關聯度的步驟包括:採用該第一資料表與第二資料表之間的一條或多條路徑的長度,確定第一資料表與第二資料表之間的距離係數;採用該第一資料表到任一資料表的路徑數目,和,該第一資料表到任一資料表且經過第二資料表的路徑數目, 確定第一資料表與第二資料表之間的連通係數;採用該第一資料表與第二資料表之間的距離係數,該第一資料表與第二資料表之間的連通係數,以及第一資料表中的一個或多個欄位的重要性係數,第二資料表中的一個或多個欄位的重要性係數,確定第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,該第一資料表中的一個或多個欄位與第二資料表中的一個或多個欄位具有依賴關係;以及採用該第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,確定第一資料表對第二資料表的關聯度。
  9. 根據申請專利範圍第3或4或5或7或8項所述的方法,其中,該依據該關聯度,對該資料表進行識別的步驟包括:按照該關聯度的大小,識別出資料業務所需的多張資料表。
  10. 根據申請專利範圍第9項所述的方法,其中,該按照該關聯度的大小,識別出資料業務所需的多張資料表的步驟包括:分別獲取該資料業務所需的資料表的關聯度大小;以及根據該關聯度大小,從該資料業務所需的資料表中篩選出預設數量的多張資料表。
  11. 一種資料表的識別方法,其特徵在於,該方法包 括:獲取資料表之間的第一依賴關係;依據該第一依賴關係,統計該資料表之間的路徑長度和路徑數目;獲取該資料表中的一個或多個欄位之間的第二依賴關係;依據該第二依賴關係,確定該一個或多個欄位的重要性係數;採用該路徑長度、路徑數目,以及,重要性係數,確定該資料表之間的關聯度;以及依據該關聯度,對該資料表進行識別。
  12. 一種資料表關聯度的確定方法,其特徵在於,該方法包括:獲取資料表之間的第一依賴關係;依據該第一依賴關係,統計該資料表之間的路徑長度和路徑數目;獲取該資料表中的一個或多個欄位之間的第二依賴關係;依據該第二依賴關係,確定該一個或多個欄位的重要性係數;以及採用該路徑長度、路徑數目,以及,重要性係數,確定該資料表之間的關聯度。
  13. 一種資料表的識別裝置,其特徵在於,該裝置包括: 第一接收模組,用於接收針對資料業務的識別指令;提交模組,用於將該識別指令提交至伺服器;第二接收模組,用於接收伺服器發送的該資料業務所關聯的資料表,其中,該資料業務所關聯的資料表由該伺服器針對該識別指令,透過識別該資料業務所關聯的資料表獲得;以及展現模組,用於展現該資料業務所關聯的資料表,其中,該資料業務所關聯的資料表為依據資料表之間的關聯度,對該資料表進行識別得到;該資料表之間的關聯度由路徑長度、路徑資料,以及一個或多個欄位的重要性係數確定;該一個或多個欄位的重要性係數依據獲取的該資料表中的一個或多個欄位之間的第二依賴關係確定;該資料表之間的路徑長度和路徑數目依據獲取的該資料表之間的第一依賴關係統計得到。
  14. 一種資料表的識別裝置,其特徵在於,該裝置包括:第三接收模組,用於接收由終端提交的針對資料業務的識別指令;識別模組,用於針對該識別指令,識別該資料業務所關聯的資料表;以及發送模組,用於向終端發送該資料業務所關聯的資料表,其中,該識別模組包括:第一依賴關係獲取子模組,用於獲取資料表之間 的第一依賴關係;路徑長度和路徑數目統計子模組,用於依據該第一依賴關係,統計該資料表之間的路徑長度和路徑數目;第二依賴關係獲取子模組,用於獲取該資料表中的一個或多個欄位之間的第二依賴關係;重要性係數確定子模組,用於依據該第二依賴關係,確定該一個或多個欄位的重要性係數;關聯度確定子模組,用於採用該路徑長度、路徑數目,以及,重要性係數,確定該資料表之間的關聯度;以及資料表識別子模組,用於依據該關聯度,對該資料表進行識別。
  15. 根據申請專利範圍第14項所述的裝置,其中,該路徑長度和路徑數目統計子模組包括:有向無環圖構建單元,用於針對該第一依賴關係,構建該資料表之間的有向無環圖;以及路徑長度和路徑數目統計單元,用於統計該有向無環圖中的路徑長度和路徑數目。
  16. 根據申請專利範圍第15項所述的裝置,其中,該有向無環圖構建單元包括:無環圖構建子單元,用於按照該第一依賴關係所對應的順序,構建以該資料表為節點的有向圖;以及 有向無環圖獲得子單元,用於刪除該有向圖中的環,獲得該資料表之間的有向無環圖。
  17. 根據申請專利範圍第15或16項所述的裝置,其中,該路徑長度和路徑數目統計單元包括:路徑長度統計子單元,用於統計該有向無環圖中的第一資料表與第二資料表之間的一條或多條路徑的長度,以及路徑數目統計子單元,用於統計該第一資料表到任一資料表的路徑數目,和,該第一資料表到任一資料表且經過第二資料表的路徑數目。
  18. 根據申請專利範圍第14項所述的裝置,其中,該重要性係數確定子模組包括:使用次數獲取單元,用於獲取該一個或多個欄位在預設時間段內的使用次數,該一個或多個欄位具有對應的欄位等級;以及重要性係數確定單元,用於根據該使用次數,和/或,欄位等級,確定該一個或多個欄位的重要性係數,其中,該一個或多個欄位的重要性係數與該使用次數,和/或,該欄位等級正相關。
  19. 根據申請專利範圍第14項所述的裝置,其中,該關聯度確定子模組包括:距離係數確定單元,用於採用該第一資料表與第二資料表之間的一條或多條路徑的長度,確定第一資料表與第二資料表之間的距離係數; 連通係數確定單元,用於採用該第一資料表到任一資料表的路徑數目,和,該第一資料表到任一資料表且經過第二資料表的路徑數目,確定第一資料表與第二資料表之間的連通係數;欄位關聯度確定單元,用於採用該第一資料表與第二資料表之間的距離係數,該第一資料表與第二資料表之間的連通係數,以及第一資料表中的一個或多個欄位的重要性係數,第二資料表中的一個或多個欄位的重要性係數,確定第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,該第一資料表中的一個或多個欄位與第二資料表中的一個或多個欄位具有依賴關係;以及資料表關聯度確定單元,用於採用該第一資料表中的一個或多個欄位對第二資料表中的一個或多個欄位的關聯度,確定第一資料表對第二資料表的關聯度。
  20. 根據申請專利範圍第14或15或16或18或19項所述的裝置,其中,該資料表識別子模組包括:資料表識別單元,用於按照該關聯度的大小,識別出資料業務所需的多張資料表。
  21. 根據申請專利範圍第20項所述的裝置,其中,該資料表識別單元包括:資料表關聯度獲取子單元,用於分別獲取該資料業務所需的資料表的關聯度大小;以及資料表篩選子單元,用於根據該關聯度大小,從該資料業務所需的資料表中篩選出預設數量的多張資料表。
  22. 一種資料表的識別裝置,其特徵在於,該裝置包括:第一依賴關係獲取模組,用於獲取資料表之間的第一依賴關係;路徑長度和路徑數目統計模組,用於依據該第一依賴關係,統計該資料表之間的路徑長度和路徑數目;第二依賴關係獲取模組,用於獲取該資料表中的一個或多個欄位之間的第二依賴關係;重要性係數確定模組,用於依據該第二依賴關係,確定該一個或多個欄位的重要性係數;關聯度確定模組,用於採用該路徑長度、路徑數目,以及,重要性係數,確定該資料表之間的關聯度;以及資料表識別模組,用於依據該關聯度,對該資料表進行識別。
  23. 一種資料表關聯度的確定裝置,其特徵在於,該裝置包括:第一依賴關係獲取模組,用於獲取資料表之間的第一依賴關係;路徑長度和路徑數目統計模組,用於依據該第一依賴關係,統計該資料表之間的路徑長度和路徑數目;第二依賴關係獲取模組,用於獲取該資料表中的一個或多個欄位之間的第二依賴關係;重要性係數確定模組,用於依據該第二依賴關係,確定該一個或多個欄位的重要性係數;以及 關聯度確定模組,用於採用該路徑長度、路徑數目,以及,重要性係數,確定該資料表之間的關聯度。
TW106107243A 2016-06-17 2017-03-06 資料表的識別方法、裝置和系統 TWI743092B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610440032.2A CN107515886B (zh) 2016-06-17 2016-06-17 一种数据表的识别方法、装置和系统
??201610440032.2 2016-06-17
CN201610440032.2 2016-06-17

Publications (2)

Publication Number Publication Date
TW201810083A TW201810083A (zh) 2018-03-16
TWI743092B true TWI743092B (zh) 2021-10-21

Family

ID=60659609

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106107243A TWI743092B (zh) 2016-06-17 2017-03-06 資料表的識別方法、裝置和系統

Country Status (4)

Country Link
US (1) US10445345B2 (zh)
CN (1) CN107515886B (zh)
TW (1) TWI743092B (zh)
WO (1) WO2017218744A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017187537A1 (ja) * 2016-04-26 2017-11-02 三菱電機株式会社 依存関係抽出装置および依存関係抽出プログラム
CN109117429B (zh) * 2017-06-22 2020-09-22 北京嘀嘀无限科技发展有限公司 数据库查询方法、装置和电子设备
CN109189828A (zh) * 2018-08-16 2019-01-11 国云科技股份有限公司 一种基于复杂网络的业务部门间数据价值评估的方法
CN109670090A (zh) * 2018-12-24 2019-04-23 成都四方伟业软件股份有限公司 一种数据识别方法及装置
CN110032564B (zh) * 2019-03-07 2023-07-14 创新先进技术有限公司 一种数据表关联关系的确定方法和装置
CN110059301A (zh) * 2019-03-12 2019-07-26 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
US11270065B2 (en) 2019-09-09 2022-03-08 International Business Machines Corporation Extracting attributes from embedded table structures
US11380116B2 (en) 2019-10-22 2022-07-05 International Business Machines Corporation Automatic delineation and extraction of tabular data using machine learning
CN111538746A (zh) * 2020-05-15 2020-08-14 北京明略软件系统有限公司 一种信息处理方法、装置、存储介质和设备
CN113806356B (zh) * 2020-06-16 2024-03-19 中国移动通信集团重庆有限公司 数据识别方法、装置及计算设备
CN112100201B (zh) * 2020-09-30 2024-02-06 东莞盟大集团有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112579709B (zh) * 2020-12-17 2023-07-28 中国农业银行股份有限公司 一种数据表识别方法、装置、存储介质及电子设备
CN113342791A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 一种数据质量监测方法及装置
CN113360488A (zh) * 2021-06-01 2021-09-07 深圳市酷开网络科技股份有限公司 基于数据仓库的血缘关系管理系统及方法
US11797555B2 (en) * 2021-12-20 2023-10-24 Google Llc Method for copying spanner databases from production to test environments
CN116257563B (zh) * 2022-11-30 2023-11-21 荣耀终端有限公司 一种数据价值评估方法及电子设备
CN117688217A (zh) * 2024-02-02 2024-03-12 北方健康医疗大数据科技有限公司 基于有向图实现数据血缘关系结构的系统、方法及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200919235A (en) * 2007-10-26 2009-05-01 Inventec Corp Method for generating data-sheets in the database
US20100228731A1 (en) * 2009-03-03 2010-09-09 Microsoft Corporation Large graph measurement
CN103067618A (zh) * 2012-12-21 2013-04-24 上海即略网络信息科技有限公司 来电显示方法及系统
US20140337315A1 (en) * 2006-09-18 2014-11-13 Infobright Inc. Method and system for storing, organizing and processing data in a relational database
US20150169707A1 (en) * 2013-12-18 2015-06-18 University College Dublin Representative sampling of relational data
TW201543234A (zh) * 2014-05-01 2015-11-16 Univ Cheng Shiu 從資料表欄位註解產生網頁程式與對應表單介面之方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6339777B1 (en) * 1999-07-30 2002-01-15 International Business Machines Corporation Method and system for handling foreign key update in an object-oriented database environment
DE10040987B4 (de) 1999-09-29 2006-10-12 International Business Machines Corp. Verfahren und Vorrichtung für übereinstimmende Aktualisierungen von redundanten Daten in relationalen Datenbanken
US20020128998A1 (en) 2001-03-07 2002-09-12 David Kil Automatic data explorer that determines relationships among original and derived fields
CN1225863C (zh) * 2002-08-27 2005-11-02 华为技术有限公司 话单合并处理方法
JP4992243B2 (ja) 2006-01-31 2012-08-08 富士通株式会社 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
US20070233925A1 (en) * 2006-03-31 2007-10-04 Sap Ag Centralized management of data nodes
US7536401B2 (en) 2006-08-07 2009-05-19 International Business Machines Corporation Methods, systems, and computer program products for using graphs to solve circular dependency in object persistence
US8752059B2 (en) 2007-03-27 2014-06-10 International Business Machines Corporation Computer data processing capacity planning using dependency relationships from a configuration management database
US8117606B2 (en) * 2007-06-04 2012-02-14 Infosys Technologies Ltd. System and method for application migration in a grid computing environment
US7779040B2 (en) 2007-09-27 2010-08-17 Amazon Technologies, Inc. System for detecting associations between items
US7836100B2 (en) 2007-10-26 2010-11-16 Microsoft Corporation Calculating and storing data structures including using calculated columns associated with a database system
US8856182B2 (en) 2008-01-25 2014-10-07 Avaya Inc. Report database dependency tracing through business intelligence metadata
US9229982B2 (en) * 2008-12-23 2016-01-05 SAP France S.A. Processing queries using oriented query paths
JP4856223B2 (ja) * 2009-09-03 2012-01-18 シャープ株式会社 画像形成装置に推奨オプション機能を提示する情報処理装置、その情報処理装置と通信可能な画像形成装置およびそれらを備えた画像形成システム
US8862632B2 (en) 2010-05-28 2014-10-14 Salesforce.Com, Inc. Customizing standard formula fields in a multi-tenant database system environment
CN102541875B (zh) * 2010-12-16 2014-04-16 北京大学 有向无环图的关系型节点数据的存取方法、装置及系统
CN102117320B (zh) * 2011-01-11 2012-07-25 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
JP5536687B2 (ja) * 2011-01-31 2014-07-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム
CN102222280B (zh) * 2011-06-16 2014-05-14 中国联合网络通信集团有限公司 信息交互处理系统和方法
CN102968501B (zh) * 2012-12-07 2016-02-17 福建亿榕信息技术有限公司 一种通用的全文搜索方法
US9262501B2 (en) * 2012-12-13 2016-02-16 Vinayak Borkar Method, apparatus, and computer-readable medium for optimized data subsetting
US9483245B2 (en) 2013-01-23 2016-11-01 Red Hat Israel, Ltd. Matching database schema with application code using dependency management
US8964752B2 (en) * 2013-02-25 2015-02-24 Telefonaktiebolaget L M Ericsson (Publ) Method and system for flow table lookup parallelization in a software defined networking (SDN) system
WO2015120603A1 (en) 2014-02-13 2015-08-20 Sap Ag Database calculation using parallel-computation in directed acyclic graph
CN105320679B (zh) * 2014-07-11 2019-05-24 中国移动通信集团重庆有限公司 一种数据表索引集合生成方法及装置
US20160085678A1 (en) 2014-09-24 2016-03-24 International Business Machines Corporation Caching Methodology for Dynamic Semantic Tables
US11593376B2 (en) * 2015-10-09 2023-02-28 Informatica Llc Method, apparatus, and computer-readable medium to extract a referentially intact subset from a database
US10078628B2 (en) 2015-10-22 2018-09-18 Hrb Innovations, Inc. Annotation-based dependency calculations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337315A1 (en) * 2006-09-18 2014-11-13 Infobright Inc. Method and system for storing, organizing and processing data in a relational database
TW200919235A (en) * 2007-10-26 2009-05-01 Inventec Corp Method for generating data-sheets in the database
US20100228731A1 (en) * 2009-03-03 2010-09-09 Microsoft Corporation Large graph measurement
CN103067618A (zh) * 2012-12-21 2013-04-24 上海即略网络信息科技有限公司 来电显示方法及系统
US20150169707A1 (en) * 2013-12-18 2015-06-18 University College Dublin Representative sampling of relational data
TW201543234A (zh) * 2014-05-01 2015-11-16 Univ Cheng Shiu 從資料表欄位註解產生網頁程式與對應表單介面之方法

Also Published As

Publication number Publication date
US10445345B2 (en) 2019-10-15
WO2017218744A1 (en) 2017-12-21
CN107515886A (zh) 2017-12-26
TW201810083A (zh) 2018-03-16
US20170364582A1 (en) 2017-12-21
CN107515886B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
TWI743092B (zh) 資料表的識別方法、裝置和系統
JP7469406B2 (ja) データ要素間の関係を決定するためのシステム及び方法
Lacasa et al. Network structure of multivariate time series
TWI688968B (zh) 確定地理圍欄的索引網格的方法、裝置和用於執行上述方法的電腦設備及電腦可讀儲存媒體
CN109299090B (zh) 基金中心度计算方法、系统、计算机设备和存储介质
TWI673666B (zh) 資料風險控制的方法及裝置
WO2016041373A1 (zh) 一种数据查询的方法及装置
US10572837B2 (en) Automatic time interval metadata determination for business intelligence and predictive analytics
US9201985B2 (en) Displaying annotation in multiple visualizations
US9779406B2 (en) User feature identification method and apparatus
US10282360B2 (en) Uniform chart formatting based on semantics in data models
WO2017114198A1 (zh) 一种数据处理方法和装置
US20190205453A1 (en) Binding annotations to data objects
TW201828200A (zh) 一種資料處理方法和裝置
US20140179354A1 (en) Determining contact opportunities
US20130198179A1 (en) Techniques for hierarchy visualization for organizations
US10212057B2 (en) Disparate monitoring for IoT
JP2018106557A (ja) 判定装置、判定方法及び判定プログラム
US8694918B2 (en) Conveying hierarchical elements of a user interface
Bin Mahfoodh et al. Introducing a big data system for maintaining well data quality and integrity in a world of heterogeneous environment
WO2023098634A1 (zh) 一种信息处理方法及装置
CN111340601A (zh) 商品信息的推荐方法和装置、电子设备和存储介质
Singh et al. Evolution of interdependent co-authorship and citation networks
CN107391533A (zh) 生成图形数据库查询结果的方法及装置
US9864965B2 (en) Multi-dimensional target setting application