TW201732641A - 一種資料表分析處理的方法和裝置 - Google Patents

一種資料表分析處理的方法和裝置 Download PDF

Info

Publication number
TW201732641A
TW201732641A TW106101915A TW106101915A TW201732641A TW 201732641 A TW201732641 A TW 201732641A TW 106101915 A TW106101915 A TW 106101915A TW 106101915 A TW106101915 A TW 106101915A TW 201732641 A TW201732641 A TW 201732641A
Authority
TW
Taiwan
Prior art keywords
data table
cost
parameter
general
general data
Prior art date
Application number
TW106101915A
Other languages
English (en)
Inventor
Wei Wang
Min Pan
Jin-Peng Luo
Original Assignee
Alibaba Group Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Services Ltd filed Critical Alibaba Group Services Ltd
Publication of TW201732641A publication Critical patent/TW201732641A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本發明實施例提供了一種資料表分析處理的方法和裝置,所述資料表包括資料公共層的通用資料表,以及,非資料公共層的外部資料表,所述的方法包括:針對所述資料公共層的通用資料表計算加工成本資料;確定所述非資料公共層的外部資料表所依賴的通用資料表;依據所述通用資料表的加工成本資料,計算所述外部資料表的使用成本資料,使得在對資料公共層的每一張通用資料表的成本進行評估時,不再是孤立地考慮當前資料表的自身儲存、計算消耗,而會綜合考慮所述資料表的若干張上游資料表以及兄弟資料表,從而能夠合理、準確的評估通用資料表的加工成本,以此反映出資料公共層的資料模型建設的優劣,為資料公共層模型優化與運營提供決策支援。

Description

一種資料表分析處理的方法和裝置
本發明涉及大資料處理技術領域,特別是涉及一種資料表分析處理的方法和一種資料表分析處理的裝置。
大資料時代的來臨,凸顯了海量資料儲存、計算、加工的需求,資料間的關聯與服務顯得尤為重要。這些海量的資料一般以結構化或者半結構化的形式保存在雲計算集群中,比如:Hadoop,ODPS等。海量資料之間的關係通過儲存在雲計算集群中的一張張資料表來組織和體現,並且在不同公司,以及同一家公司內部的不同業務部門之間形成互訪、流轉和交換,從而真正發揮大資料時代資料應有的價值。
在雲計算環境下成千上萬的資料表中,對於一些常用的資料,通用的資料,會進行統一加工和歸納,形成一些通用性強,複用性高,高度規範統一的資料表,組成資料公共層。一般而言,資料公共層的資料表是各個業務部門需要經常使用的資料。
眾所周知,大資料時代資料的儲存、計算、管理、維 護都需要消耗較高的軟硬體成本和人力成本,那麼資料加工所帶來的成本耗費如何計量,以及資料使用中所需要的成本消耗如何評估已成為資料在互訪、流轉、交換的過程中面臨的重要且核心的問題。
已有技術中,對於資料表的加工成本僅僅通過資料加工過程中所消耗的計算性硬體資源(比如CPU的消耗、記憶體消耗)及儲存性資源(儲存介質的消耗)來計量,即只是孤立的分析當前一張資料表在加工過程中產生的儲存消耗和計算消耗。對於資料表的使用成本也只是將被使用表的資料加工成本平均分攤給這張資料表的各個使用者,顯然也不夠公平及合理。這將必然導致已有技術中無論資料加工成本的計量還是資料使用成本計量都不夠準確的問題,從而嚴重影響雲計算環境中資料有效性的判斷,導致資料成本過高,以及,過多不必要的資源耗費。
鑒於上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種資料表分析處理的方法和相應的一種資料表分析處理的裝置。
為了解決上述問題,本發明公開了一種資料表分析處理的方法,所述資料表包括資料公共層的通用資料表,以及,非資料公共層的外部資料表,所述的方法包括:針對所述資料公共層的通用資料表計算加工成本資料; 確定所述非資料公共層的外部資料表所依賴的通用資料表;依據所述通用資料表的加工成本資料,計算所述外部資料表的使用成本資料。
可選地,所述針對所述資料公共層的通用資料表計算加工成本資料的步驟包括:提取所述資料公共層的通用資料表的加工成本特徵參數;採用所述加工成本特徵參數計算所述通用資料表的加工成本資料。
可選地,所述加工成本特徵參數包括第一掃描成本參數,所述提取所述資料公共層的通用資料表的加工成本特徵參數的子步驟進一步包括:統計所述通用資料表所依賴的父表的數量;獲取所述通用資料表對所述父表的掃描量;統計所述父表下所有子表的數量;所述採用所述加工成本特徵參數計算所述通用資料表的加工成本資料的子步驟進一步包括:採用所述通用資料表所依賴的父表數量,所述通用資料表對所述父表的掃描量,以及,所述父表下所有子表的數量,計算出第一掃描成本參數。
可選地,所述加工成本特徵參數還包括第一計算成本參數,以及,第一儲存成本參數,所述提取所述資料公共層的通用資料表的加工成本特徵參數的子步驟進一步包 括:提取所述通用資料表的複雜度CU作為第一計算成本參數;提取所述通用資料表的儲存量作為第一儲存成本參數。
可選地,通過如下公式採用所述通用資料表所依賴的父表數量,以及,所述通用資料表對所述父表的掃描量,以及,所述父表下所有子表的數量,計算出第一掃描成本參數:
其中,Cost(j)為資料表j的加工成本資料,資料表j為資料表i所依賴的m張父表,編號為1...m,ScanSize(i,j)為通用資料表i對父表j的掃描量,資料表m為父表j的所有子表,編號為1...n。
可選地,通過如下公式採用所述加工成本特徵參數計算所述通用資料表的加工成本資料:
其中,ComputeCost(i)為通用資料表i的第一計算成 本參數;StorageCost(i)為通用資料表i的第一儲存成本參數;ScanCost(i,j)為通用資料表i對父表j的第一掃描成本參數。
可選地,所述依據所述通用資料表的加工成本資料,計算所述外部資料表的使用成本資料的步驟為,依據所述通用資料表的加工成本特徵參數,計算所述外部資料表的使用成本資料。
可選地,所述依據所述通用資料表的加工成本特徵參數,計算所述外部資料表的使用成本資料步驟包括:提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數;採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數;採用所述使用成本特徵參數計算所述外部資料表的使用成本資料。
可選地,所述使用成本特徵參數包括第二計算成本參數;所述提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟為:提取所述外部資料表所依賴的通用資料表的第一計算成本參數;所述採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數的步驟包括: 獲取所述外部資料表與其所依賴的通用資料表之間的計算成本計算因數;採用所述計算成本計算因數校正所述第一計算成本參數,獲得第二計算成本參數。
可選地,所述使用成本特徵參數包括第二儲存成本參數;所述提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟為:提取所述外部資料表所依賴的通用資料表的第一儲存成本參數;所述採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數的步驟還包括:獲取所述外部資料表與其所依賴的通用資料表之間的儲存成本計算因數;採用所述儲存成本計算因數校正所述第一儲存成本參數,獲得第二儲存成本參數。
可選地,所述使用成本特徵參數包括第二掃描成本參數;所述提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟為:提取所述外部資料表所依賴的通用資料表的第一掃描成本參數;所述採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數的步驟還包括: 獲取所述外部資料表與其所依賴的通用資料表之間的掃描成本計算因數;採用所述儲存成本計算因數校正所述第一掃描成本參數,獲得第二掃描成本參數。
可選地,獲取所述外部資料表與其所依賴的通用資料表之間的計算成本計算因數的子步驟進一步包括:獲取最近m天中每一天對所述通用資料表進行過掃描的資料表的數目,以及,所述通用資料表最近m天的平均子表數;採用如下公式依據所述最近m天中每一天對所述通用資料表進行過掃描的資料表的數目,以及,所述通用資料表最近m天的平均子表數,計算出成本計算因數:
其中,m為最近m天中的每一天;scanm(j)為第m天對通用資料表j進行過掃描的資料表數目;分母為通用資料表j最近90天的平均子表數的範例。
可選地,獲取所述外部資料表與其所依賴的通用資料表之間的儲存成本計算因數的子步驟進一步包括:獲取所述外部資料表對其所依賴的通用資料表的掃描量,以及,與所述通用資料表存在依賴關係的k張表; 採用如下公式依據所述外部資料表對其所依賴的通用資料表的掃描量,以及,與所述通用資料表存在依賴關係的k張表,計算出儲存成本計算因數:
其中,scansize(i,j)為外部資料表i對通用資料表j的掃描量;m為與通用資料表j存在依賴關係的k張表,為編號1...k。
可選地,獲取所述外部資料表與其所依賴的通用資料表之間的掃描成本計算因數的子步驟進一步包括:獲取所述通用資料表中熱度欄位所占的比例,以及,所述通用資料表在當前資料公共層中的依賴層級,所述熱度欄位為在某一時間段內被使用的次數大於所述通用資料表的直接下游資料表數量的欄位;採用如下公式依據所述通用資料表中熱度欄位所占的比例,以及,所述通用資料表在當前資料公共層中的層級,計算出掃描成本計算因數:
其中,hot_ratio(j)為通用資料表j的熱度欄位的數量 占表中總欄位數量的比例;level(j)為通用資料表j在資料公共層中的依賴層級。
可選地,通過如下公式採用所述使用成本特徵參數計算所述外部資料表的使用成本資料:cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
其中,i為外部資料表,j為通用資料表,資料表i與資料表j之間存在依賴關係;cost(i,j)為外部資料表i使用通用資料表j的使用成本資料;compcost(j)為通用資料表j的加工成本資料中的第一計算成本參數;compfac(i,j)為外部資料表i與通用資料表j之間的計算成本計算因數;storcost(j)為通用資料表j的加工成本資料中第一儲存成本參數;storfac(i,j)為外部資料表i與通用資料表j之間的儲存成本計算因數;scancost(j)為通用資料表j加工成本資料中的第一掃描成本參數;scanfac(i,j)為外部資料表i與通用資料表j之間的掃描成本計算因數。
可選地,所述的方法還包括: 當所述加工成本資料滿足第一預設條件時,提取對應的通用資料表。
可選地,所述當所述加工成本資料滿足第一預設條件時,提取對應的通用資料表的步驟包括:若某張通用資料表的第一儲存成本參數與第一計算成本參數的比值高於第一預設臨界值,則提取出所述通用資料表;和/或,若某張通用資料表的第一計算成本參數高於第二預設臨界值,則提取出所述通用資料表;和/或,若某張通用資料表的第一掃描成本參數與第一計算成本參數的比值高於第三預設臨界值,則提取出所述通用資料表;和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二計算成本參數之和;若所述通用資料表的第一計算成本參數大於所述第二計算成本參數之和,則提取出所述通用資料表;和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二儲存成本參數之和;若所述通用資料表的第一儲存成本參數大於所述第二儲存成本參數之和,則提取出所述通用資料表; 和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二掃描成本參數之和;若所述通用資料表的第一掃描成本參數大於所述第二掃描成本參數之和,則提取出所述通用資料表。
可選地,所述的方法還包括:當所述使用成本資料滿足第二預設條件時,提取對應的外部資料表。
可選地,所述當所述加工成本資料滿足第二預設條件時,提取對應的外部資料表的步驟包括:若某張外部資料表的第二儲存成本參數與第二計算成本參數的比值高於第四預設臨界值,則提取出所述外部資料表;和/或,若某張外部資料表能夠從其他通用資料表獲得與當前通用資料表相同的資料,且在通過其他通用資料表獲取資料時的第二掃描成本參數小於從當前通用資料表獲取資料時的第二掃描成本參數,則提取出所述外部資料表。
為了解決上述問題,本發明還公開了一種資料表分析處理的裝置,其特徵在於,所述資料表包括資料公共層的通用資料表,以及,非資料公共層的外部資料表,所述的裝置包括:加工成本計算模組,用於針對所述資料公共層的通用資料表計算加工成本資料; 確定模組,用於確定所述非資料公共層的外部資料表所依賴的通用資料表;使用成本計算模組,用於依據所述通用資料表的加工成本資料,計算所述外部資料表的使用成本資料。
可選地,所述加工成本計算模組包括:加工成本特徵參數提取子模組,用於提取所述資料公共層的通用資料表的加工成本特徵參數;加工成本計算子模組,用於採用所述加工成本特徵參數計算所述通用資料表的加工成本資料。
可選地,所述加工成本特徵參數包括第一掃描成本參數,所述加工成本特徵參數提取子模組進一步包括:父表數量統計單元,用於統計所述通用資料表所依賴的父表的數量;掃描量獲取單元,用於獲取所述通用資料表對所述父表的掃描量;子表數量統計單元,用於統計所述父表下所有子表的數量;所述加工成本計算子模組進一步包括:第一掃描成本計算單元,用於採用所述通用資料表所依賴的父表數量,所述通用資料表對所述父表的掃描量,以及,所述父表下所有子表的數量,計算出第一掃描成本參數。
可選地,所述加工成本特徵參數還包括第一計算成本參數,以及,第一儲存成本參數,所述加工成本特徵參數 提取子模組進一步包括:第一計算成本參數提取單元,用於提取所述通用資料表的複雜度CU作為第一計算成本參數;第一儲存成本參數提取單元,用於提取所述通用資料表的儲存量作為第一儲存成本參數。
可選地,通過如下公式採用所述通用資料表所依賴的父表數量,以及,所述通用資料表對所述父表的掃描量,以及,所述父表下所有子表的數量,計算出第一掃描成本參數:
其中,Cost(j)為資料表j的加工成本資料,資料表j為資料表i所依賴的m張父表,編號為1...m,ScanSize(i,j)為通用資料表i對父表j的掃描量,資料表m為父表j的所有子表,編號為1...n。
可選地,通過如下公式採用所述加工成本特徵參數計算所述通用資料表的加工成本資料:
其中,ComputeCost(i)為通用資料表i的第一計算成 本參數;StorageCost(i)為通用資料表i的第一儲存成本參數;ScanCost(i,j)為通用資料表i對父表j的第一掃描成本參數。
可選地,所述使用成本計算模組包括:使用成本計算子模組,用於依據所述通用資料表的加工成本特徵參數,計算所述外部資料表的使用成本資料。
可選地,所述使用成本計算子模組包括:加工成本特徵參數提取單元,用於提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數;使用成本特徵參數計算單元,用於採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數;使用成本資料計算單元,用於採用所述使用成本特徵參數計算所述外部資料表的使用成本資料。
可選地,所述使用成本特徵參數包括第二計算成本參數;所述加工成本特徵參數提取單元包括:第一計算成本參數提前子單元,用於提取所述外部資料表所依賴的通用資料表的第一計算成本參數;所述使用成本特徵參數計算單元包括:計算成本計算因數獲取子單元,用於獲取所述外部資料表與其所依賴的通用資料表之間的計算成本計算因數;第二計算成本參數計算子單元,用於採用所述計算成 本計算因數校正所述第一計算成本參數,獲得第二計算成本參數。
可選地,所述使用成本特徵參數包括第二儲存成本參數;所述加工成本特徵參數提取單元包括:第一儲存成本參數提取子單元,用於提取所述外部資料表所依賴的通用資料表的第一儲存成本參數;所述使用成本特徵參數計算單元還包括:儲存成本計算因數獲取子單元,用於獲取所述外部資料表與其所依賴的通用資料表之間的儲存成本計算因數;第二儲存成本參數計算子單元,用於採用所述儲存成本計算因數校正所述第一儲存成本參數,獲得第二儲存成本參數。
可選地,所述使用成本特徵參數包括第二掃描成本參數;所述加工成本特徵參數提取單元包括:第一掃描成本參數提取子單元,用於提取所述外部資料表所依賴的通用資料表的第一掃描成本參數;所述使用成本特徵參數計算單元還包括:掃描成本計算因數獲取子單元,用於獲取所述外部資料表與其所依賴的通用資料表之間的掃描成本計算因數;第二掃描成本參數計算子單元,用於採用所述儲存成本計算因數校正所述第一掃描成本參數,獲得第二掃描成本參數。
可選地,所述計算成本計算因數獲取子單元進一步用於:獲取最近m天中每一天對所述通用資料表進行過掃描的資料表的數目,以及,所述通用資料表最近m天的平均子表數;採用如下公式依據所述最近m天中每一天對所述通用資料表進行過掃描的資料表的數目,以及,所述通用資料表最近m天的平均子表數,計算出成本計算因數:
其中,m為最近m天中的每一天;scanm(j)為第m天對通用資料表j進行過掃描的資料表數目;分母為通用資料表j最近90天的平均子表數的範例。
可選地,所述儲存成本計算因數獲取子單元進一步用於:獲取所述外部資料表對其所依賴的通用資料表的掃描量,以及,與所述通用資料表存在依賴關係的k張表;採用如下公式依據所述外部資料表對其所依賴的通用資料表的掃描量,以及,與所述通用資料表存在依賴關係的k張表,計算出儲存成本計算因數:
其中,scansize(i,j)為外部資料表i對通用資料表j的掃描量;m為與通用資料表j存在依賴關係的k張表,為編號1...k。可選地,所述掃描成本計算因數獲取子單元進一步用於:獲取所述通用資料表中熱度欄位所占的比例,以及,所述通用資料表在當前資料公共層中的依賴層級,所述熱度欄位為在某一時間段內被使用的次數大於所述通用資料表的直接下游資料表數量的欄位;採用如下公式依據所述通用資料表中熱度欄位所占的比例,以及,所述通用資料表在當前資料公共層中的層級,計算出掃描成本計算因數:
其中,hot_ratio(j)為通用資料表j的熱度欄位的數量占表中總欄位數量的比例;level(j)為通用資料表j在資料公共層中的依賴層級。
可選地,通過如下公式採用所述使用成本特徵參數計算所述外部資料表的使用成本資料: cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
其中,i為外部資料表,j為通用資料表,資料表i與資料表j之間存在依賴關係;cost(i,j)為外部資料表i使用通用資料表j的使用成本資料;compcost(j)為通用資料表j的加工成本資料中的第一計算成本參數;compfac(i,j)為外部資料表i與通用資料表j之間的計算成本計算因數;storcost(j)為通用資料表j的加工成本資料中第一儲存成本參數;storfac(i,j)為外部資料表i與通用資料表j之間的儲存成本計算因數;scancost(j)為通用資料表j加工成本資料中的第一掃描成本參數;scanfac(i,j)為外部資料表i與通用資料表j之間的掃描成本計算因數。
可選地,所述的裝置還包括:第一提取模組,用於在所述加工成本資料滿足第一預設條件時,提取對應的通用資料表。
可選地,所述第一提取模組包括:第一提取子模組,用於在某張通用資料表的第一儲存成本參數與第一計算成本參數的比值高於第一預設臨界值 時,提取出所述通用資料表;和/或,第二提取子模組,用於在某張通用資料表的第一計算成本參數高於第二預設臨界值時,提取出所述通用資料表;和/或,第三提取子模組,用於在某張通用資料表的第一掃描成本參數與第一計算成本參數的比值高於第三預設臨界值時,提取出所述通用資料表;和/或,第四統計子模組,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二計算成本參數之和;第四提取子模組,用於在所述通用資料表的第一計算成本參數大於所述第二計算成本參數之和時,提取出所述通用資料表;和/或,第五統計子模組,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二儲存成本參數之和;第五提取子模組,用於在所述通用資料表的第一儲存成本參數大於所述第二儲存成本參數之和時,提取出所述通用資料表;和/或,第六統計子模組,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二掃描成本參數之和; 第六提取子模組,用於在所述通用資料表的第一掃描成本參數大於所述第二掃描成本參數之和時,提取出所述通用資料表。
可選地,所述的裝置還包括:第二提取模組,用於在所述使用成本資料滿足第二預設條件時,提取對應的外部資料表。
可選地,所述第二提取模組包括:第七提取子模組,用於在某張外部資料表的第二儲存成本參數與第二計算成本參數的比值高於第四預設臨界值時,提取出所述外部資料表;和/或,第八提取子模組,用於在某張外部資料表能夠從其他通用資料表獲得與當前通用資料表相同的資料,且在通過其他通用資料表獲取資料時的第二掃描成本參數小於從當前通用資料表獲取資料時的第二掃描成本參數時,提取出所述外部資料表。
與背景技術相比,本發明實施例包括以下優點:
第一,在本發明實施例中,通過考慮不同資料表之間的依賴關係,引入了掃描成本參數,優化了資料表的成本評估方式,使得在對資料公共層的每一張通用資料表的成本進行評估時,不再是孤立地考慮當前資料表的自身儲存、計算消耗,而會綜合考慮所述資料表的若干張上游資料表以及兄弟資料表,從而能夠合理、準確的評估通用資料表的加工成本,以此反映出資料公共層的資料模型建設 的優劣,為資料公共層模型優化與運營提供決策支援。
第二,在本發明實施例中,對於外部資料表的使用成本計量,可以清楚的評估出其他外部資料表訪問資料公共層的通用資料表所帶來的儲存、計算、掃描三部分的消耗,便於評估外部資料表訪問資料公共層通用資料表的合理性和必要性,從而輔助業務部門對自身資料表建設的優化,避免資料重複建設造成的資源浪費,提升資料資源利用率、降低資料成本,從而達到從整體上節約成本的目的。
第三,在本發明實施例中,還通過引入計算因數,使得上游資料表的成本消耗可以按照合理的比例被下游資料表繼承下來,同時,通過綜合考慮儲存量、掃描量、資料表的複用程度、資料表的加工層次以及資料表的熱度欄位比例等因素,使得對外部資料表的使用成本計算更合理、更準確。
第四,本發明請實施例通過對通用資料表的加工成本資料,以及外部資料表的使用成本資料進行分析,將其與預設臨界值進行比較,從而能夠具體地識別出成本消耗過高的資料表,有助於對所述資料表進行優化,以進一步達到節約成本的目的。
101、102、103、104、105、201、202、203、204、205、206、207、208‧‧‧步驟
111A‧‧‧父表數量統計單元
111B‧‧‧掃描量獲取單元
111C‧‧‧子表數量統計單元
112A‧‧‧第一計算成本參數提取單
113A‧‧‧第一儲存成本參數提取單元
121A‧‧‧第一掃描成本計算單元
301‧‧‧加工成本計算模組
3011‧‧‧加工成本特徵參數提取子模組
3012‧‧‧加工成本計算子模組
302‧‧‧確定模組
303‧‧‧使用成本計算模組
304‧‧‧第一提取模組
3041‧‧‧第一提取子模組
3042‧‧‧第二提取子模組
3043‧‧‧第三提取子模組
3044‧‧‧第四統計子模組
3045‧‧‧第四提取子模組
3046‧‧‧第五統計子模組
3047‧‧‧第五提取子模組
3048‧‧‧第六統計子模組
3049‧‧‧第六提取子模組
305‧‧‧第二提取模組
3051‧‧‧第七提取子模組
3052‧‧‧第八提取子模組
3031‧‧‧使用成本計算子模組
311‧‧‧加工成本特徵參數提取單元
311A‧‧‧第一計算成本參數提前子單元
311B‧‧‧第一儲存成本參數提取子單元
312‧‧‧使用成本特徵參數計算單元
312A‧‧‧計算成本計算因數獲取子單元
312B‧‧‧第二計算成本參數計算子單元
312C‧‧‧儲存成本計算因數獲取子單
312D‧‧‧第二儲存成本參數計算子單元
312E‧‧‧掃描成本計算因數獲取子單元
312F‧‧‧第二掃描成本參數計算子單元
313‧‧‧使用成本資料計算單元
圖1是本發明的一種資料表分析處理的方法實施例一的步驟流程圖; 圖2是本發明的一種資料公共層的通用資料表模型示意圖;圖3是本發明的一種通用資料表與外部資料表關係示意圖;圖4是本發明的一種資料表分析處理的方法實施例二的步驟流程圖;圖5是本發明的又一種通用資料表與外部資料表關係示意圖;圖6是本發明的一種資料表分析處理的裝置實施例的結構框圖。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本發明作進一步詳細的說明。
已有技術中,對於資料表的加工成本僅僅通過資料加工過程中所消耗的計算性硬體資源(比如CPU的消耗、記憶體消耗)及儲存性資源(儲存介質的消耗)來計量。然而,一張資料表的產生,其中的資料可能來自於上游的N張資料表,也就是一張資料表的產生需要依賴上游N張資料表。而已有的成本計量模型只是孤立的分析當前一張資料表在加工過程中產生的儲存消耗和計算消耗,並沒有考慮到資料表之間的依賴關係,因此忽略了資料表之間的掃描消耗。
已有技術對於資料表的使用成本也只是將被使用表的資料加工成本平均分攤給這張資料表的各個使用者,而沒有根據各個使用者的具體訪問情況不同,採取不同分攤方式。由於不同的使用者對同一張資料表的使用情況各不相同,有的使用者訪問的資料量比較大,計算也比較複雜,有的使用者唯讀取了少量的資料,計算很簡單。如果採用均攤的方式,那麼這兩個使用者所承擔的掃描成本是相同的,但是這顯然是不公平、不合理的。
針對上述問題,本發明創造性地提出用於進行資料表分析處理的兩種計量模型,分別為資料公共層的資料加工成本的計量模型,以及,外部資料物件BU訪問資料公共層資料的資料使用成本計量模型。
為使本領域技術人員更好地理解本發明,以下簡單對本發明實施例所涉及的兩種計量模型的核心構思簡要說明:
一、資料公共層資料加工成本的計量模型:包括計算成本評估、儲存成本評估及掃描成本評估三個部分。計算成本評估以及儲存成本評估是從所述通用資料表自身的角度,反映出這張資料表在資料加工過程中實際的軟硬體消耗。而掃描成本,是因為考慮到資料加工過程中資料表的依賴關係,掃描成本的計算根據子表對父表的掃描量占父表總體被掃描量的比例來分攤父表成本,作為子表對父表的掃描成本。
二、外部資料物件BU訪問資料公共層資料的資料使 用成本計量模型:按照資料加工成本消耗的計量方式,可以得到被使用資料表的三部分成本,即計算成本、儲存成本、掃描成本。對於這張資料表的使用成本,可以將這三部分成本按相應比例分攤後加權求和的方式來計算。三部分成本的分攤比例演算法可以各不相同。
將上述兩種計量模型應用到實際的資料分析處理中,至少可以解決如下技術問題:1)獲得一張資料公共層資料表儲存成本、計算成本、掃描成本三方面的比例;2)當儲存成本高於某個臨界值時,可以降低儲存量;3)當計算成本高於某個臨界值時,可以優化這張資料表的計算邏輯,減少計算量;4)當掃描成本高於某個臨界值時,可以優化這張資料表的加工鏈路,減少無用的對父表的掃描資料量;5)控制資料使用方,只從公共層讀取必要的資料量,減少無用資料的掃描;6)控制資料使用方,儘量使用層級較深的表(層級較深的表都是經過公共層深度加工的表,是精品表)。
一般而言,對於資料公共層的每一張資料表的資料加工成本要小於該表的直接下游的資料使用成本之和,這張資料表才符合資料公共層的要求,才有存在於資料公共層的價值。
參照圖1,示出了本發明的一種資料表分析處理的方 法實施例一的步驟流程圖,其中,所述資料表可以包括資料公共層的通用資料表,以及,非資料公共層的外部資料表,所述的方法具體可以包括如下步驟:步驟101,針對所述資料公共層的通用資料表計算加工成本資料;在本發明實施例中,通用資料表的加工成本資料不僅可以包括在對資料表進行資料加工過程中所消耗的計算性硬體資源(比如CPU的消耗、記憶體消耗)及儲存性資源(儲存介質的消耗),還可以包括資料表之間的依賴關係,即資料表之間的掃描消耗。
一張資料表的產生,其中的資料可能來自於上游的N張資料表,因此,資料表之間的掃描消耗體現的是在對資料表進行加工的過程中,可能會使用到的對所依賴的資料表的掃描量。參照圖2,示出了一種資料公共層的通用資料表模型示意圖,每一個圓圈A,B,C,D,E,F分別表示資料公共層的6張通用資料表,圖中兩個圓圈之間的箭頭表示兩張通用資料表之間存在的資料互訪關係,也就是掃描關係。例如,通用資料表B與通用資料表A之間的箭頭表示通用資料表B需要掃描通用資料表A,箭頭上的數位代資料表掃描量的大小,單位為TB,因此圖2中通用資料表B需要掃描通用資料表A的資料為2TB。
在本發明的一種較佳實施例中,所述針對所述資料公共層的通用資料表計算加工成本資料具體可以包括如下子步驟: 子步驟1011,提取所述資料公共層的通用資料表的加工成本特徵參數;子步驟1012,採用所述加工成本特徵參數計算所述通用資料表的加工成本資料。
在本發明的一種實施例中,所述加工成本特徵參數可以包括第一計算成本參數,以及,第一儲存成本參數,所述提取所述資料公共層的通用資料表的加工成本特徵參數的子步驟可以進一步包括:提取所述通用資料表的複雜度CU作為第一計算成本參數;提取所述通用資料表的儲存量作為第一儲存成本參數。
在本發明實施例中,第一計算成本參數可以是所述通用資料表在進行資料加工的過程中需要耗費的CPU資源,可以以複雜度CU計算,1CU代表1個CPU(core)運行一天所需要的成本消耗。複雜度CU可以從開放資料處理服務ODPS(Open Data Processing Service,簡稱ODPS)集群中繼資料中獲取。ODPS是一種大規模分散式資料處理服務,可以支援對海量資料進行處理。
第一儲存成本參數可以是在對所述通用資料表進行儲存時所需要耗費的硬碟儲存資源,可以以儲存量TU計算,1TU代表1TB資料儲存一天所需要的成本消耗。儲存量TU也可以從ODPS集群中繼資料中獲取。
在本發明實施例中,為了將以CU為單位的複雜度和 以TU為單位的儲存量進行統一、綜合計量,可以引入新的資源消耗計量單位,即資源單元,記為CT。其中,資源單元與複雜度CU之間的換算關係為:1CT=4CU;資源單元與儲存量TU之間的換算關係為:1CT=9TU。
例如,若加工一張通用資料表消耗的複雜度為1CU,消耗的儲存量為2TU,則所述通用資料表在加工過程中消耗的資源為1/4+2/9=0.47CT。
在本發明的另一種實施例中,所述加工成本特徵參數還可以包括第一掃描成本參數,所述提取所述資料公共層的通用資料表的加工成本特徵參數的子步驟可以進一步包括:統計所述通用資料表所依賴的父表的數量;獲取所述通用資料表對所述父表的掃描量;統計所述父表下所有子表的數量;所述採用所述加工成本特徵參數計算所述通用資料表的加工成本資料的子步驟可以進一步包括:採用所述通用資料表所依賴的父表數量,所述通用資料表對所述父表的掃描量,以及,所述父表下所有子表的數量,計算出第一掃描成本參數。
例如,參照圖2所示,通用資料表C與通用資料表A之間的箭頭代表通用資料表C需要掃描通用資料表A,即,通用資料表A是通用資料表C的父表,箭頭上的數字代表子表C對父表A的掃描量的大小為1TB,父表A下的子表數量共3個,即,通用資料表B、通用資料表C 和通用資料表D。採用上述資料,從而可以計算出第一掃描成本參數。
在具體實現中,可以通過如下公式計算出第一掃描成本參數:
其中,Cost(j)為資料表j的加工成本資料,資料表j為資料表i所依賴的m張父表,編號為1...m,ScanSize(i,j)為通用資料表i對父表j的掃描量,資料表m為父表j的所有子表,編號為1...n。
在本發明的一種較佳實施例中,可以採用第一計算成本參數,第一儲存成本參數,以及,第一掃描成本參數計算所述通用資料表的加工成本資料。
在具體實現中,可以通過如下公式計算所述通用資料表的加工成本資料:
其中,ComputeCost(i)為通用資料表i的第一計算成本參數;StorageCost(i)為通用資料表i的第一儲存成本參數; ScanCost(i,j)為通用資料表i對父表j的第一掃描成本參數。
因此,圖2中各通用資料表的加工成本資料可以計算如下:
通用資料表A:2/9+1/4+0=0.472CT
通用資料表B:1/9+2/4+0.472*(2/(2+1+1))=0.845CT
通用資料表C:2/9+2/4/0.472*(1/(2+1+1))=0.840CT
通用資料表D:1/9+1/4+0.472*(1/(2+1+1))=0.479CT
通用資料表E:0.5/9+3/4+0.854*2/2+0.840*(1/(1+5))=1.800CT
通用資料表F:1/9+3/4+0.840*(5/(1+5))=1.561CT
以上範例僅為幫助對本發明實施例的理解,不應理解為是對本發明的限定。本領域技術人員可以根據資料公共層中各通用資料表之間的實際依賴關係,採用本發明實施例中描述的方法及公式,獲得相應的加工成本資料。
步驟102,確定所述非資料公共層的外部資料表所依賴的通用資料表;在本發明實施例中,對於非資料公共層的外部資料表,可以首先確定出所述外部資料表所依賴的通用資料表。參照圖3,示出了一種通用資料表與外部資料表關係示意圖,圖3中表A,表B,表C分別表示資料公共層的通用資料表,表D則表示非資料公共層的一張外部資料表。外部資料表D可以訪問通用資料表B和通用資料表C。每一通用資料表中圓圈內的4個數字分別代表所述通 用資料表的第一計算成本參數,第一儲存成本參數,第一掃描成本參數,以及總的資料儲存量。
例如,參照圖3,通用資料表A的第一計算成本參數為1CT,第一儲存成本參數為2CT,第一掃描成本參數為2CT,通用資料表A的資料儲存量為10TB。外部資料表D與通用資料表B箭頭上的數位表示外部資料表D掃描通用資料表B的資料量為2TB。
以上範例僅為通用資料表與外部資料表關係的一種範例,不應理解為是對本發明的限定,本領域技術人員可以根據實際情況,採用本發明實施例中描述的方法,確定出外部資料表與通用資料表之間的實際依賴關係以及資料掃描情況。
步驟103,依據所述通用資料表的加工成本資料,計算所述外部資料表的使用成本資料;在本發明實施例中,由於外部資料表存在與通用資料表之間的依賴關係,因此,可以依據所述通用資料表的加工成本資料,計算所述外部資料表的使用成本資料。具體地,可以依據所述通用資料表的加工成本特徵參數,計算所述外部資料表的使用成本資料。
在本發明的一種較佳實施例中,所述依據所述通用資料表的加工成本特徵參數,計算所述外部資料表的使用成本資料的步驟具體可以包括:提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數; 採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數;採用所述使用成本特徵參數計算所述外部資料表的使用成本資料。
在具體實現中,當確定出所述非資料公共層的外部資料表所依賴的通用資料表後,可以提取出所述通用資料表的加工特徵參數,從而根據所述外部資料表與所述通用資料表之間的依賴關係,計算出所述外部資料表的使用成本特徵參數,進而獲得所述外部資料表的使用成本資料。
進一步地,所述使用成本特徵參數可以包括第二計算成本參數,第二儲存成本參數,以及,第二掃描成本參數。
第二計算成本參數可以是所述外部資料表在使用資料公共層的通用資料表的過程中所需要耗費的CPU資源,同樣可以以複雜度CU計算;第二儲存成本參數可以是對通用資料表進行儲存所需要耗費的硬碟儲存資源,可以以儲存量TU計算;第二掃描成本參數則可以體現外部資料表與資料公共層的通用資料表之間的掃描關係。
在本發明的一種較佳實施例中,所述方法還可以進一步包括步驟104和步驟105。
步驟104,當所述加工成本資料滿足第一預設條件時,提取對應的通用資料表;步驟105,當所述使用成本資料滿足第二預設條件時,提取對應的外部資料表。
在具體實現中,當獲得所述通用資料表的加工成本資料,以及,外部資料表的使用成本資料後,可以將所述加工成本資料和所述使用成本資料分別與第一預設條件和第二預設條件進行比較,以確定是否滿足相應的預設條件,若是,則可以提取對應的通用資料表,或,外部資料表。
例如,對於資料公共層的通用資料表,在分別獲得第一計算成本參數、第一儲存成本參數和第一掃描成本參數後,可以分別判斷第一計算成本參數、第一儲存成本參數和第一掃描成本參數是否滿足預設的條件。若第一儲存成本參數過高,則可以考慮針對所述通用資料表降低儲存量;若第一計算成本參數較高,則可以優化所述通用資料表的計算邏輯,減少計算複雜度;若第一掃描成本參數較高,則可以對所述通用資料表的加工鏈路進行優化,以減少無用的對父表的掃描資料量。
而對於非資料公共層的外部資料表,則可以根據獲得的使用成本資料敦促資料使用方,只從資料公共層讀取必須的資料量,減少無用資料的掃描,以及,儘量使用層級較深的通用資料表,因為層級較深的通用資料表都是經過資料公共層深度加工的表,是精品表。
在本發明實施例中,通過考慮不同資料表之間的依賴關係,引入了掃描成本參數,優化了資料表的成本評估方式,使得在對資料公共層的每一張通用資料表的成本進行評估時,不再是孤立地考慮當前資料表的自身儲存、計算消耗,而會綜合考慮所述資料表的若干張上游資料表以及 兄弟資料表,從而能夠合理、準確的評估通用資料表的加工成本,以此反映出資料公共層的資料模型建設的優劣,為資料公共層模型優化與運營提供決策支援。
其次,在本發明實施例中,對於外部資料表的使用成本計量,可以清楚的評估出其他外部資料表訪問資料公共層的通用資料表所帶來的儲存、計算、掃描三部分的消耗,便於評估外部資料表訪問資料公共層通用資料表的合理性和必要性,從而輔助業務部門對自身資料表建設的優化,避免資料重複建設造成的資源浪費,提升資料資源利用率、降低資料成本,從而達到從整體上節約成本的目的。
參照圖4,示出了本發明的一種資料表分析處理的方法實施例二的步驟流程圖,其中,所述資料表可以包括資料公共層的通用資料表,以及,非資料公共層的外部資料表,所述的方法具體可以包括如下步驟:步驟201,提取所述資料公共層的通用資料表的加工成本特徵參數;在本發明實施例中,所述通用資料表的加工成本特徵參數可以包括第一計算成本參數,第一儲存成本參數,以及,第一掃描成本參數。
第一計算成本參數可以是所述通用資料表在進行資料加工的過程中需要耗費的CPU資源,以複雜度CU計算;第一儲存成本參數可以是在對所述通用資料表進行儲存時所需要耗費的硬碟儲存資源,以儲存量TU計算;第一掃 描成本參數則體現了所述通用資料表對所關聯的通用資料表的掃描量情況,可以根據所述通用資料表所依賴的父表數量,所述通用資料表對所述父表的掃描量,以及,所述父表下所有子表的數量計算得到。
在本發明實施例中,為了將以CU為單位的複雜度和以TU為單位的儲存量進行統一、綜合計量,可以引入新的資源消耗計量單位,即資源單元,記為CT。資源單元與複雜度CU、儲存量TU之間的換算關係可以為:1CT=4CU,1CT=9TU。
步驟202,採用所述加工成本特徵參數計算所述通用資料表的加工成本資料;在具體實現中,可以通過如下公式計算所述通用資料表的加工成本資料:
其中,ComputeCost(i)為通用資料表i的第一計算成本參數;StorageCost(i)為通用資料表i的第一儲存成本參數;ScanCost(i,j)為通用資料表i對父表j的第一掃描成本參數。
步驟203,確定所述非資料公共層的外部資料表所依賴的通用資料表;例如,參照圖3所示,非資料公共層的外部資料表D 所依賴的通用資料表包括通用資料表B和通用資料表C。
步驟204,提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數;在本發明的一種實施例中,所述使用成本特徵參數可以包括第二計算成本參數;因此,所述提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟可以為:提取所述外部資料表所依賴的通用資料表的第一計算成本參數。
在本發明的另一種實施例中,所述使用成本特徵參數還可以包括第二儲存成本參數;因此,所述提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟還可以為:提取所述外部資料表所依賴的通用資料表的第一儲存成本參數。
在本發明的又一種實施例中,所述使用成本特徵參數也可以包括第二掃描成本參數;因此,所述提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟可以為:提取所述外部資料表所依賴的通用資料表的第一掃描成本參數。
例如,參照圖3所示,外部資料表所依賴的通用資料表為通用資料表B和通用資料表C,針對第二計算成本參數,可以分別提取通用資料表B和通用資料表C的第一計算成本參數,通用資料表B和通用資料表C的第一計算成本參數均為1CT;針對第二儲存成本參數,可以分別提取通用資料表B和通用資料表C的第二儲存成本參 數,通用資料表B的第二儲存成本參數為1CT,通用資料表C的第二儲存成本參數為4CT;針對第二掃描成本參數,可以分別提取通用資料表B和通用資料表C的第二掃描成本參數,通用資料表B的第二掃描成本參數為3CT,通用資料表C的第二掃描成本參數為2CT。
以上範例僅為幫助對本發明實施例的理解,不應認為是對本發明的限定,本領域技術人員可以根據實際情況,採用本發明實施例中所述的方法,獲得相應的結果。
步驟205,採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數;在本發明的一種實施例中,所述採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數的步驟可以包括;獲取所述外部資料表與其所依賴的通用資料表之間的計算成本計算因數;採用所述計算成本計算因數校正所述第一計算成本參數,獲得第二計算成本參數。
對於同一張通用資料表而言,可能會被多張不同的外部資料表所使用,不同的使用者對同一張通用資料表的使用情況各不相同,有的使用者訪問的資料量比較大,計算也比較複雜,有的使用者唯讀取了少量的資料,計算很簡單。如果採用均攤的方式,那麼這兩個使用者所承擔的成本是相同的,但是這顯然是不公平、不合理的。因此,在本發明實施例中,引入了計算成本計算因數,通過採用所 述計算成本計算因數校正所述第一計算成本參數,從而獲得第二計算成本參數。計算因數具體體現了所述外部使用表在使用通用資料表的過程中,子表對父表的使用情況占父表總體被使用情況的比例。
具體地,獲取所述外部資料表與其所依賴的通用資料表之間的計算成本計算因數的子步驟可以進一步包括:獲取最近m天中每一天對所述通用資料表進行過掃描的資料表的數目,以及,所述通用資料表最近m天的平均子表數;例如,可以採用如下公式,計算出成本計算因數,從而獲得第二計算成本參數:
其中,m為最近m天中的每一天;scanm(j)為第m天對通用資料表j進行過掃描的資料表數目;分母為通用資料表j最近90天的平均子表數的範例。
在本發明的另一種實施例中,所述採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數的步驟還可以包括;獲取所述外部資料表與其所依賴的通用資料表之間的儲存成本計算因數; 採用所述儲存成本計算因數校正所述第一儲存成本參數,獲得第二儲存成本參數。
與第二計算成本參數的計算類似,對於第二儲存成本參數,也可以通過採用儲存成本計算因數校正所述第一儲存成本參數的方式,來獲得第二儲存成本參數。
具體地,獲取所述外部資料表與其所依賴的通用資料表之間的儲存成本計算因數的子步驟可以進一步包括:獲取所述外部資料表對其所依賴的通用資料表的掃描量,以及,與所述通用資料表存在依賴關係的k張表;可以採用如下公式,計算出儲存成本計算因數,從而獲得第二儲存成本參數:
其中,scansize(i,j)為外部資料表i對通用資料表j的掃描量;m為與通用資料表j存在依賴關係的k張表,為編號1...k。
在本發明的又一種實施例中,所述採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數的步驟還可以包括;獲取所述外部資料表與其所依賴的通用資料表之間的掃描成本計算因數;採用所述儲存成本計算因數校正所述第一掃描成本參 數,獲得第二掃描成本參數。
類似地,對於第二掃描成本參數的獲得,也可以通過獲取掃描成本計算因數,確定子表對父表的掃描量占父表總體被掃描量的比例,採用所述比例校正第一掃描成本參數,從而獲得第二掃描成本參數。
具體地,獲取所述外部資料表與其所依賴的通用資料表之間的掃描成本計算因數的子步驟可以進一步包括:獲取所述通用資料表中熱度欄位所占的比例,以及,所述通用資料表在當前資料公共層中的依賴層級;對於任一通用資料表而言,表中的任意一個欄位a,如果所述欄位a在某一時間段內被下游資料表使用的次數大於所述通用資料表的直接下游表數目,那麼所述欄位a就是所述通用資料表的熱度欄位。因此,對於任一通用資料表,表中的熱度欄位數占表中總欄位數的比例即為熱度欄位所占的比例。通常,對於熱度欄位進行統計的時間段可以按一天來計算。
通用資料表的依賴層級體現的是所述通用資料表與當前資料公共層中其他通用資料表之間的依賴關係。參照圖3所示,資料公共層中共包括3張通用資料表,即通用資料表A、通用資料表B和通用資料表C。若通用資料表A的依賴層級為1,則通用資料表B和通用資料表C的依賴層級均為2。
在具體實現中,可以採用如下公式,計算出掃描成本計算因數,從而獲得第二掃描成本參數:
其中,hot_ratio(j)為通用資料表j的熱度欄位的數量占表中總欄位數量的比例;level(j)為通用資料表j在資料公共層中的依賴層級。
步驟206,採用所述使用成本特徵參數計算所述外部資料表的使用成本資料;在本發明實施例中,當分別獲得所述外部資料表的第二計算成本參數、第二儲存成本參數和第二掃描成本參數後,可以將所述第二計算成本參數、第二儲存成本參數和第二掃描成本參數進行累加,從而得到所述外部資料表的使用成本資料。
在具體實現中,可以通過如下公式計算所述外部資料表的使用成本資料:cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
其中,i為外部資料表,j為通用資料表,資料表i與資料表j之間存在依賴關係;cost(i,j)為外部資料表i使用通用資料表j的使用成本資料;compcost(j)為通用資料表j的加工成本資料中的第一計算成本參數; compfac(i,j)為外部資料表i與通用資料表j之間的計算成本計算因數;storcost(j)為通用資料表j的加工成本資料中第一儲存成本參數;storfac(i,j)為外部資料表i與通用資料表j之間的儲存成本計算因數;scancost(j)為通用資料表j加工成本資料中的第一掃描成本參數;scanfac(i,j)為外部資料表i與通用資料表j之間的掃描成本計算因數。
步驟207,當所述加工成本資料滿足第一預設條件時,提取對應的通用資料表;步驟208,當所述使用成本資料滿足第二預設條件時,提取對應的外部資料表。
在具體實現中,當分別獲得所述通用資料表的加工成本資料,以及,外部資料表的使用成本資料後,可以根據所述加工成本資料和所述使用成本資料,對所述通用資料表和外部資料表進行分析,以確定是否需要對所述資料表進行優化處理。
在本發明的一種較佳實施例中,所述當所述加工成本資料滿足第一預設條件時,提取對應的通用資料表的步驟可以包括:若某張通用資料表的第一儲存成本參數與第一計算成本參數的比值高於第一預設臨界值,則提取出所述通用資 料表;和/或,若某張通用資料表的第一計算成本參數高於第二預設臨界值,則提取出所述通用資料表;和/或,若某張通用資料表的第一掃描成本參數與第一計算成本參數的比值高於第三預設臨界值,則提取出所述通用資料表;和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二計算成本參數之和;若所述通用資料表的第一計算成本參數大於所述第二計算成本參數之和,則提取出所述通用資料表;和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二儲存成本參數之和;若所述通用資料表的第一儲存成本參數大於所述第二儲存成本參數之和,則提取出所述通用資料表;和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二掃描成本參數之和;若所述通用資料表的第一掃描成本參數大於所述第二掃描成本參數之和,則提取出所述通用資料表。
例如,若通用資料表的第一儲存成本參數與所述通用 資料表的第一計算成本參數的比值大於1/4,可以認為所述通用資料表的儲存成本偏高,則可以提取出所述通用資料表,考慮降低儲存量。
若所述通用資料表的的第一計算成本參數超過30CU,也就是CPU運算超過了30min,則可以考慮優化所述通用資料表的計算邏輯,以減少計算量。
若所述通用資料表的第一掃描成本參數與第一計算成本參數的比值大於10,可以認為第一掃描成本參數較高,則可以考慮對所述通用資料表的加工鏈路進行優化,以減少無用的對父表的掃描資料量。
此外,若所述通用資料表的第一計算成本參數大於所述通用資料表的所有使用者的計算成本之和,或者,所述通用資料表的第一儲存成本參數大於所述通用資料表的所有使用者的儲存成本之和,或者,所述通用資料表的第一掃描成本參數大於所述通用資料表的所有使用者的掃描成本之和,則可以識別並提取出所述通用資料表,以作進一步處理。
以上範例僅為幫助對本發明實施例的理解,本領域技術人員可以根據實際情況,確定相應的預設臨界值大小,本發明對此不作限定。
在本發明的另一種較佳實施例中,所述當所述加工成本資料滿足第二預設條件時,提取對應的外部資料表的步驟可以包括:若某張外部資料表的第二儲存成本參數與第二計算成 本參數的比值高於第四預設臨界值,則提取出所述外部資料表;和/或,若某張外部資料表能夠從其他通用資料表獲得與當前通用資料表相同的資料,且在通過其他通用資料表獲取資料時的第二掃描成本參數小於從當前通用資料表獲取資料時的第二掃描成本參數,則提取出所述外部資料表。
例如,若所述外部資料表的第二儲存成本參數與第二計算成本參數的比值大於1/4,可以認為所述外部資料表的儲存成本偏高,則可以提取出所述外部資料表,考慮降低儲存量。
此外,若所述外部資料表所依賴的資料可以從其他通用資料表中獲得,且當所述外部資料表對該通用資料表進行掃描時,所述第二掃描成本參數小於所述外部資料表對當前通用資料表進行掃描時的第二掃描成本參數,則可以考慮對所述外部資料表的依賴關係進行優化,以減少掃描成本。
以上範例僅為幫助對本發明實施例的理解,本領域技術人員可以根據實際情況,確定相應的預設臨界值大小,本發明對此不作限定。
在本發明實施例中,通過引入計算因數,使得上游資料表的成本消耗可以按照合理的比例被下游資料表繼承下來,同時,通過綜合考慮儲存量、掃描量、資料表的複用程度、資料表的加工層次以及資料表的熱度欄位比例等因 素,使得對外部資料表的使用成本計算更合理、更準確。
其次,本發明請實施例通過對通用資料表的加工成本資料,以及外部資料表的使用成本資料進行分析,將其與預設臨界值進行比較,從而能夠具體地識別出成本消耗過高的資料表,有助於進一步對所述資料表進行優化,以達到節約成本的目的。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面以一個完整範例對本發明的較佳實施例作一詳細的說明。
若有6張資料表A、B、C、D、E和F,其相互之間的掃描關係如下表一所示:
在表一中:資料公共層包括4張通用資料表,即通用資料表A、通用資料表B、通用資料表C和通用資料表D;非公共資料層的外部資料表共2張,即外部資料表E和外部資料表F。
其中,對於表一中的第一行資料,可以理解為:通用資料表B的儲存量為10TB,通用資料表A的儲存量為20TB,通用資料表B掃描了通用資料表A 1TB的資料。通用資料表A下共有三張子表。
對於表一中的第二行資料,可以理解為:通用資料表C的儲存量為6TB,通用資料表B的儲存量為10TB,通用資料表C掃描了通用資料表B 2TB的資料。通用資料表B下共有兩張子表。
對於表一中的第四行資料,可以理解為:外部資料表E的儲存量為12TB,通用資料表C的儲存量為6TB,外部資料表E掃描了通用資料表C 2TB的資料。通用資料表C下共有四張子表。
根據上述掃描關係,可以構建出如圖5所示的本發明的又一種通用資料表與外部資料表關係示意圖。
按照如下所述的通用資料表加工成本資料計算公式
可以得到如下表二的通用資料表加工成本資料:
同時,按照如下所述的外部資料表使用成本資料計算公式cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
可以得到如下表三的外部資料表使用成本資料:
然後將上述通用資料表的加工成本資料,和外部資料表的使用成本資料與預設的條件進行比較,從而可以提取出如下表四的通用資料表和外部資料表:
以上範例僅為幫助對本發明所述方法的理解,不應認為是對本發明的限定,本領域技術人員可以根據資料表之間的實際依賴關係,按照本發明所述的方法和公式,確定出通用資料表的加工成本資料,以及外部資料表的使用成本資料,從而根據所述加工成本資料和使用成本資料,識別出需要優化資料表。
需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本發明實施例所必須的。
參照圖6,示出了本發明的一種資料表分析處理的裝置實施例的結構框圖,其中,所述資料表可以包括資料公共層的通用資料表,以及,非資料公共層的外部資料表,所述的裝置具體可以包括如下模組:加工成本計算模組301,用於針對所述資料公共層的通用資料表計算加工成本資料;確定模組302,用於確定所述非資料公共層的外部資料表所依賴的通用資料表;使用成本計算模組303,用於依據所述通用資料表的加工成本資料,計算所述外部資料表的使用成本資料。
在本發明實施例中,所述加工成本計算模組301具體 可以包括如下子模組:加工成本特徵參數提取子模組3011,用於提取所述資料公共層的通用資料表的加工成本特徵參數;加工成本計算子模組3012,用於採用所述加工成本特徵參數計算所述通用資料表的加工成本資料。
在本發明的一種實施例中,所述加工成本特徵參數可以包括第一掃描成本參數,所述加工成本特徵參數提取子模組3011可以進一步包括如下單元:父表數量統計單元111A,用於統計所述通用資料表所依賴的父表的數量;掃描量獲取單元111B,用於獲取所述通用資料表對所述父表的掃描量;子表數量統計單元111C,用於統計所述父表下所有子表的數量;所述加工成本計算子模組3012可以進一步包括如下單元:第一掃描成本計算單元121A,用於採用所述通用資料表所依賴的父表數量,所述通用資料表對所述父表的掃描量,以及,所述父表下所有子表的數量,計算出第一掃描成本參數。
在本發明的另一種實施例中,所述加工成本特徵參數還可以包括第一計算成本參數,以及,第一儲存成本參數,所述加工成本特徵參數提取子模組3011還可以進一步包括如下單元: 第一計算成本參數提取單元112A,用於提取所述通用資料表的複雜度CU作為第一計算成本參數;第一儲存成本參數提取單元113A,用於提取所述通用資料表的儲存量作為第一儲存成本參數。
在本發明實施例中,可以通過如下公式採用所述通用資料表所依賴聯的父表數量,以及,所述通用資料表對所述父表的掃描量,以及,所述父表下所有子表的數量,計算出第一掃描成本參數:
其中,Cost(j)為資料表j的加工成本資料,資料表j為資料表i所依賴的m張父表,編號為1...m,ScanSize(i,j)為通用資料表i對父表j的掃描量,資料表m為父表j的所有子表,編號為1...n。
在本發明實施例中,可以通過如下公式採用所述加工成本特徵參數計算所述通用資料表的加工成本資料:
其中,ComputeCost(i)為通用資料表i的第一計算成本參數; StorageCost(i)為通用資料表i的第一儲存成本參數;ScanCost(i,j)為通用資料表i對父表j的第一掃描成本參數。
在本發明實施例中,所述使用成本計算模組303具體可以包括如下子模組:使用成本計算子模組3031,用於依據所述通用資料表的加工成本特徵參數,計算所述外部資料表的使用成本資料。
在本發明實施例中,所述使用成本計算子模組3031具體可以包括如下單元:加工成本特徵參數提取單元311,用於提取所述非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數;使用成本特徵參數計算單元312,用於採用所述加工成本特徵參數計算所述外部資料表的使用成本特徵參數;使用成本資料計算單元313,用於採用所述使用成本特徵參數計算所述外部資料表的使用成本資料。
在本發明實施例中,所述使用成本特徵參數包括第二計算成本參數;所述加工成本特徵參數提取單元311具體可以包括如下子單元:第一計算成本參數提前子單元311A,用於提取所述外部資料表所依賴的通用資料表的第一計算成本參數;所述使用成本特徵參數計算單元312具體可以包括如 下子單元:計算成本計算因數獲取子單元312A,用於獲取所述外部資料表與其所依賴的通用資料表之間的計算成本計算因數;第二計算成本參數計算子單元312B,用於採用所述計算成本計算因數校正所述第一計算成本參數,獲得第二計算成本參數。
在本發明實施例中,所述使用成本特徵參數還可以包括第二儲存成本參數;所述加工成本特徵參數提取單元311具體可以包括如下子單元:第一儲存成本參數提取子單元311B,用於提取所述外部資料表所依賴的通用資料表的第一儲存成本參數;所述使用成本特徵參數計算單元312還可以包括如下子單元:儲存成本計算因數獲取子單元312C,用於獲取所述外部資料表與其所依賴的通用資料表之間的儲存成本計算因數;第二儲存成本參數計算子單元312D,用於採用所述儲存成本計算因數校正所述第一儲存成本參數,獲得第二儲存成本參數。
在本發明實施例中,所述使用成本特徵參數還可以包括第二掃描成本參數;所述加工成本特徵參數提取單元311還可以包括如下 子單元:第一掃描成本參數提取子單元311C,用於提取所述外部資料表所依賴的通用資料表的第一掃描成本參數;所述使用成本特徵參數計算單元312還可以包括如下子單元:掃描成本計算因數獲取子單元312E,用於獲取所述外部資料表與其所依賴的通用資料表之間的掃描成本計算因數;第二掃描成本參數計算子單元312F,用於採用所述儲存成本計算因數校正所述第一掃描成本參數,獲得第二掃描成本參數。
在本發明實施例中,所述計算成本計算因數獲取子單元312A還可以進一步用於:獲取最近m天中每一天對所述通用資料表進行過掃描的資料表的數目,以及,所述通用資料表最近m天的平均子表數;採用如下公式依據所述最近m天中每一天對所述通用資料表進行過掃描的資料表的數目,以及,所述通用資料表最近m天的平均子表數,計算出成本計算因數:
其中,m為最近m天中的每一天;scanm(j)為第m天對通用資料表j進行過掃描的資料 表數目;分母為通用資料表j最近90天的平均子表數的範例。
在本發明實施例中,所述儲存成本計算因數獲取子單元312C還可以進一步用於:獲取所述外部資料表對其所依賴的通用資料表的掃描量,以及,與所述通用資料表存在依賴關係的k張表;採用如下公式依據所述外部資料表對其所依賴的通用資料表的掃描量,以及,與所述通用資料表存在依賴關係的k張表,計算出儲存成本計算因數:
其中,scansize(i,j)為外部資料表i對通用資料表j的掃描量;m為與通用資料表j存在依賴關係的k張表,為編號1...k。
在本發明實施例中,所述掃描成本計算因數獲取子單元312E還可以進一步用於:獲取所述通用資料表中熱度欄位所占的比例,以及,所述通用資料表在當前資料公共層中的依賴層級;採用如下公式依據所述通用資料表中熱度欄位所占的比例,以及,所述通用資料表在當前資料公共層中的層級,計算出掃描成本計算因數:
其中,hot_ratio(j)為通用資料表j的熱度欄位的數量占表中總欄位數量的比例;level(j)為通用資料表j在資料公共層中的依賴層級。
在本發明實施例中,可以通過如下公式採用所述使用成本特徵參數計算所述外部資料表的使用成本資料:cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
其中,i為外部資料表,j為通用資料表,資料表i與資料表j之間存在依賴關係;cost(i,j)為外部資料表i使用通用資料表j的使用成本資料;compcost(j)為通用資料表j的加工成本資料中的第一計算成本參數;compfac(i,j)為外部資料表i與通用資料表j之間的計算成本計算因數;storcost(j)為通用資料表j的加工成本資料中第一儲存成本參數;storfac(i,j)為外部資料表i與通用資料表j之間的儲存成本計算因數;scancost(j)為通用資料表j加工成本資料中的第一掃 描成本參數;scanfac(i,j)為外部資料表i與通用資料表j之間的掃描成本計算因數。
在本發明實施例中,所述裝置還可以包括如下模組:第一提取模組304,用於在所述加工成本資料滿足第一預設條件時,提取對應的通用資料表;在本發明實施例中,所述第一提取模組304具體可以包括如下子模組:第一提取子模組3041,用於在某張通用資料表的第一儲存成本參數與第一計算成本參數的比值高於第一預設臨界值時,提取出所述通用資料表;和/或,第二提取子模組3042,用於在某張通用資料表的第一計算成本參數高於第二預設臨界值時,提取出所述通用資料表;和/或,第三提取子模組3043,用於在某張通用資料表的第一掃描成本參數與第一計算成本參數的比值高於第三預設臨界值時,提取出所述通用資料表;和/或,第四統計子模組3044,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二計算成本參數之和;第四提取子模組3045,用於在所述通用資料表的第 一計算成本參數大於所述第二計算成本參數之和時,提取出所述通用資料表;和/或,第五統計子模組3046,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二儲存成本參數之和;第五提取子模組3047,用於在所述通用資料表的第一儲存成本參數大於所述第二儲存成本參數之和時,提取出所述通用資料表;和/或,第六統計子模組3048,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二掃描成本參數之和;第六提取子模組3049,用於在所述通用資料表的第一掃描成本參數大於所述第二掃描成本參數之和時,提取出所述通用資料表。
在本發明實施例中,所述裝置還可以包括如下模組:第二提取模組305,用於在所述使用成本資料滿足第二預設條件時,提取對應的外部資料表。
在本發明實施例中,所述第二提取模組305具體可以包括如下子模組:第七提取子模組3051,用於在某張外部資料表的第二儲存成本參數與第二計算成本參數的比值高於第四預設臨界值時,提取出所述外部資料表; 和/或,第八提取子模組3052,用於在某張外部資料表能夠從其他通用資料表獲得與當前通用資料表相同的資料,且在通過其他通用資料表獲取資料時的第二掃描成本參數小於從當前通用資料表獲取資料時的第二掃描成本參數時,提取出所述外部資料表。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀介質中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是 電腦可讀介質的範例。電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁片儲存或其他磁性存放裝置或任何其他非傳輸介質,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀介質不包括非持續性的電腦可讀媒體(transitory media),如調製的資料信號和載波。
本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。
這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。
這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。
儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終 端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個......”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本發明所提供的一種資料表分析處理的方法和一種資料表分析處理的裝置進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

Claims (38)

  1. 一種資料表分析處理的方法,該資料表包括資料公共層的通用資料表,以及,非資料公共層的外部資料表,所述的方法包括:針對該資料公共層的通用資料表計算加工成本資料;確定該非資料公共層的外部資料表所依賴的通用資料表;依據該通用資料表的加工成本資料,計算該外部資料表的使用成本資料。
  2. 根據申請專利範圍第1項所述的方法,其中,所述針對該資料公共層的通用資料表計算加工成本資料的步驟包括:提取該資料公共層的通用資料表的加工成本特徵參數;採用該加工成本特徵參數計算該通用資料表的加工成本資料。
  3. 根據申請專利範圍第2項所述的方法,其中,該加工成本特徵參數包括第一掃描成本參數,所述提取該資料公共層的通用資料表的加工成本特徵參數的子步驟進一步包括:統計該通用資料表所依賴的父表的數量;獲取該通用資料表對該父表的掃描量;統計該父表下所有子表的數量;所述採用該加工成本特徵參數計算該通用資料表的加 工成本資料的子步驟進一步包括:採用該通用資料表所依賴的父表數量,該通用資料表對該父表的掃描量,以及,該父表下所有子表的數量,計算出第一掃描成本參數。
  4. 根據申請專利範圍第3項所述的方法,其中,該加工成本特徵參數還包括第一計算成本參數,以及,第一儲存成本參數,所述提取該資料公共層的通用資料表的加工成本特徵參數的子步驟進一步包括:提取該通用資料表的複雜度CU作為第一計算成本參數;提取該通用資料表的儲存量作為第一儲存成本參數。
  5. 根據申請專利範圍第3或4項所述的方法,其中,通過如下公式採用該通用資料表所依賴的父表數量,以及,該通用資料表對該父表的掃描量,以及,該父表下所有子表的數量,計算出第一掃描成本參數: 其中,Cost(j)為資料表j的加工成本資料,資料表j為資料表i所依賴的m張父表,編號為1...m,ScanSize(i,j)為通用資料表i對父表j的掃描量,資料表m為父表j的所有子表,編號為1...n。
  6. 根據申請專利範圍第5項所述的方法,其中,通 過如下公式採用該加工成本特徵參數計算該通用資料表的加工成本資料: 其中,ComputeCost(i)為通用資料表i的第一計算成本參數;StorageCost(i)為通用資料表i的第一儲存成本參數;ScanCost(i,j)為通用資料表i對父表j的第一掃描成本參數。
  7. 根據申請專利範圍第2或3或4項所述的方法,其中,所述依據該通用資料表的加工成本資料,計算該外部資料表的使用成本資料的步驟為,依據該通用資料表的加工成本特徵參數,計算該外部資料表的使用成本資料。
  8. 根據申請專利範圍第7項所述的方法,其中,所述依據該通用資料表的加工成本特徵參數,計算該外部資料表的使用成本資料步驟包括:提取該非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數;採用該加工成本特徵參數計算該外部資料表的使用成本特徵參數;採用該使用成本特徵參數計算該外部資料表的使用成本資料。
  9. 根據申請專利範圍第8項所述的方法,其中,該使用成本特徵參數包括第二計算成本參數;所述提取該非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟為:提取該外部資料表所依賴的通用資料表的第一計算成本參數;所述採用該加工成本特徵參數計算該外部資料表的使用成本特徵參數的步驟包括:獲取該外部資料表與其所依賴的通用資料表之間的計算成本計算因數;採用該計算成本計算因數校正該第一計算成本參數,獲得第二計算成本參數。
  10. 根據申請專利範圍第9項所述的方法,其中,該使用成本特徵參數包括第二儲存成本參數;所述提取該非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟為:提取該外部資料表所依賴的通用資料表的第一儲存成本參數;所述採用該加工成本特徵參數計算該外部資料表的使用成本特徵參數的步驟還包括:獲取該外部資料表與其所依賴的通用資料表之間的儲存成本計算因數;採用該儲存成本計算因數校正該第一儲存成本參數,獲得第二儲存成本參數。
  11. 根據申請專利範圍第10項所述的方法,其中,該使用成本特徵參數包括第二掃描成本參數;所述提取該非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數的子步驟為:提取該外部資料表所依賴的通用資料表的第一掃描成本參數;所述採用該加工成本特徵參數計算該外部資料表的使用成本特徵參數的步驟還包括:獲取該外部資料表與其所依賴的通用資料表之間的掃描成本計算因數;採用該儲存成本計算因數校正該第一掃描成本參數,獲得第二掃描成本參數。
  12. 根據申請專利範圍第9項所述的方法,其中,獲取該外部資料表與其所依賴的通用資料表之間的計算成本計算因數的子步驟進一步包括:獲取最近m天中每一天對該通用資料表進行過掃描的資料表的數目,以及,該通用資料表最近m天的平均子表數;採用如下公式依據該最近m天中每一天對該通用資料表進行過掃描的資料表的數目,以及,該通用資料表最近m天的平均子表數,計算出成本計算因數: 其中,m為最近m天中的每一天;scanm(j)為第m天對通用資料表j進行過掃描的資料表數目;分母為通用資料表j最近90天的平均子表數的範例。
  13. 根據申請專利範圍第10項所述的方法,其中,獲取該外部資料表與其所依賴的通用資料表之間的儲存成本計算因數的子步驟進一步包括:獲取該外部資料表對其所依賴的通用資料表的掃描量,以及,與該通用資料表存在依賴關係的k張表;採用如下公式依據該外部資料表對其所依賴的通用資料表的掃描量,以及,與該通用資料表存在依賴關係的k張表,計算出儲存成本計算因數: 其中,scansize(i,j)為外部資料表i對通用資料表j的掃描量;m為與通用資料表j存在依賴關係的k張表,為編號1...k。
  14. 根據申請專利範圍第11項所述的方法,其中,獲取該外部資料表與其所依賴的通用資料表之間的掃描成本計算因數的子步驟進一步包括:獲取該通用資料表中熱度欄位所占的比例,以及,該 通用資料表在當前資料公共層中的依賴層級,該熱度欄位為在某一時間段內被使用的次數大於該通用資料表的直接下游資料表數量的欄位;採用如下公式依據該通用資料表中熱度欄位所占的比例,以及,該通用資料表在當前資料公共層中的層級,計算出掃描成本計算因數: 其中,hot_ratio(j)為通用資料表j的熱度欄位的數量占表中總欄位數量的比例;level(j)為通用資料表j在資料公共層中的依賴層級。
  15. 根據申請專利範圍第12或13或14項所述的方法,其中,通過如下公式採用該使用成本特徵參數計算該外部資料表的使用成本資料:cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)其中,i為外部資料表,j為通用資料表,資料表i與資料表j之間存在依賴關係;cost(i,j)為外部資料表i使用通用資料表j的使用成本資料;compcost(j)為通用資料表j的加工成本資料中的第一計算成本參數; compfac(i,j)為外部資料表i與通用資料表j之間的計算成本計算因數;storcost(j)為通用資料表j的加工成本資料中第一儲存成本參數;storfac(i,j)為外部資料表i與通用資料表j之間的儲存成本計算因數;scancost(j)為通用資料表j加工成本資料中的第一掃描成本參數;scanfac(i,j)為外部資料表i與通用資料表j之間的掃描成本計算因數。
  16. 根據申請專利範圍第1或2或3或4或6或8或9或10或11或12或13或14項所述的方法,其中,還包括:當該加工成本資料滿足第一預設條件時,提取對應的通用資料表。
  17. 根據申請專利範圍第16項所述的方法,其中,所述當該加工成本資料滿足第一預設條件時,提取對應的通用資料表的步驟包括:若某張通用資料表的第一儲存成本參數與第一計算成本參數的比值高於第一預設臨界值,則提取出該通用資料表;和/或,若某張通用資料表的第一計算成本參數高於第二預設臨界值,則提取出該通用資料表; 和/或,若某張通用資料表的第一掃描成本參數與第一計算成本參數的比值高於第三預設臨界值,則提取出該通用資料表;和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二計算成本參數之和;若該通用資料表的第一計算成本參數大於該第二計算成本參數之和,則提取出該通用資料表;和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二儲存成本參數之和;若該通用資料表的第一儲存成本參數大於該第二儲存成本參數之和,則提取出該通用資料表;和/或,統計與某張通用資料表的存在直接依賴關係的外部資料表的第二掃描成本參數之和;若該通用資料表的第一掃描成本參數大於該第二掃描成本參數之和,則提取出該通用資料表。
  18. 根據申請專利範圍第1或2或3或4或6或8或9或10或11或12或13或14或17項所述的方法,其中,還包括:當該使用成本資料滿足第二預設條件時,提取對應的外部資料表。
  19. 根據申請專利範圍第18項所述的方法,其中,所述當該加工成本資料滿足第二預設條件時,提取對應的外部資料表的步驟包括:若某張外部資料表的第二儲存成本參數與第二計算成本參數的比值高於第四預設臨界值,則提取出該外部資料表;和/或,若某張外部資料表能夠從其他通用資料表獲得與當前通用資料表相同的資料,且在通過其他通用資料表獲取資料時的第二掃描成本參數小於從當前通用資料表獲取資料時的第二掃描成本參數,則提取出該外部資料表。
  20. 一種資料表分析處理的裝置,該資料表包括資料公共層的通用資料表,以及,非資料公共層的外部資料表,所述的裝置包括:加工成本計算模組,用於針對該資料公共層的通用資料表計算加工成本資料;確定模組,用於確定該非資料公共層的外部資料表所依賴的通用資料表;使用成本計算模組,用於依據該通用資料表的加工成本資料,計算該外部資料表的使用成本資料。
  21. 根據申請專利範圍第20項所述的裝置,其中,該加工成本計算模組包括:加工成本特徵參數提取子模組,用於提取該資料公共層的通用資料表的加工成本特徵參數; 加工成本計算子模組,用於採用該加工成本特徵參數計算該通用資料表的加工成本資料。
  22. 根據申請專利範圍第21項所述的裝置,其中,該加工成本特徵參數包括第一掃描成本參數,該加工成本特徵參數提取子模組進一步包括:父表數量統計單元,用於統計該通用資料表所依賴的父表的數量;掃描量獲取單元,用於獲取該通用資料表對該父表的掃描量;子表數量統計單元,用於統計該父表下所有子表的數量;該加工成本計算子模組進一步包括:第一掃描成本計算單元,用於採用該通用資料表所依賴的父表數量,該通用資料表對該父表的掃描量,以及,該父表下所有子表的數量,計算出第一掃描成本參數。
  23. 根據申請專利範圍第22項所述的裝置,其中,該加工成本特徵參數還包括第一計算成本參數,以及,第一儲存成本參數,該加工成本特徵參數提取子模組進一步包括:第一計算成本參數提取單元,用於提取該通用資料表的複雜度CU作為第一計算成本參數;第一儲存成本參數提取單元,用於提取該通用資料表的儲存量作為第一儲存成本參數。
  24. 根據申請專利範圍第22或23項所述的裝置,其 中,通過如下公式採用該通用資料表所依賴的父表數量,以及,該通用資料表對該父表的掃描量,以及,該父表下所有子表的數量,計算出第一掃描成本參數: 其中,Cost(j)為資料表j的加工成本資料,資料表j為資料表i所依賴的m張父表,編號為1...m,ScanSize(i,j)為通用資料表i對父表j的掃描量,資料表m為父表j的所有子表,編號為1...n。
  25. 根據申請專利範圍第24項所述的裝置,其中,通過如下公式採用該加工成本特徵參數計算該通用資料表的加工成本資料: 其中,ComputeCost(i)為通用資料表i的第一計算成本參數;StorageCost(i)為通用資料表i的第一儲存成本參數;ScanCost(i,j)為通用資料表i對父表j的第一掃描成本參數。
  26. 根據申請專利範圍第21或22或23項所述的裝 置,其中,所述使用成本計算模組包括:使用成本計算子模組,用於依據該通用資料表的加工成本特徵參數,計算該外部資料表的使用成本資料。
  27. 根據申請專利範圍第26項所述的裝置,其中,所述使用成本計算子模組包括:加工成本特徵參數提取單元,用於提取該非資料公共層的外部資料表所依賴的通用資料表的加工成本特徵參數;使用成本特徵參數計算單元,用於採用該加工成本特徵參數計算該外部資料表的使用成本特徵參數;使用成本資料計算單元,用於採用該使用成本特徵參數計算該外部資料表的使用成本資料。
  28. 根據申請專利範圍第27項所述的裝置,其中,所述使用成本特徵參數包括第二計算成本參數;該加工成本特徵參數提取單元包括:第一計算成本參數提前子單元,用於提取該外部資料表所依賴的通用資料表的第一計算成本參數;所述使用成本特徵參數計算單元包括:計算成本計算因數獲取子單元,用於獲取該外部資料表與其所依賴的通用資料表之間的計算成本計算因數;第二計算成本參數計算子單元,用於採用該計算成本計算因數校正該第一計算成本參數,獲得第二計算成本參數。
  29. 根據申請專利範圍第28項所述的裝置,其中, 所述使用成本特徵參數包括第二儲存成本參數;該加工成本特徵參數提取單元包括:第一儲存成本參數提取子單元,用於提取該外部資料表所依賴的通用資料表的第一儲存成本參數;所述使用成本特徵參數計算單元還包括:儲存成本計算因數獲取子單元,用於獲取該外部資料表與其所依賴的通用資料表之間的儲存成本計算因數;第二儲存成本參數計算子單元,用於採用該儲存成本計算因數校正該第一儲存成本參數,獲得第二儲存成本參數。
  30. 根據申請專利範圍第29項所述的裝置,其中,所述使用成本特徵參數包括第二掃描成本參數;該加工成本特徵參數提取單元包括:第一掃描成本參數提取子單元,用於提取該外部資料表所依賴的通用資料表的第一掃描成本參數;該使用成本特徵參數計算單元還包括:掃描成本計算因數獲取子單元,用於獲取該外部資料表與其所依賴的通用資料表之間的掃描成本計算因數;第二掃描成本參數計算子單元,用於採用該儲存成本計算因數校正該第一掃描成本參數,獲得第二掃描成本參數。
  31. 根據申請專利範圍第28項所述的裝置,其中,該計算成本計算因數獲取子單元進一步用於:獲取最近m天中每一天對該通用資料表進行過掃描 的資料表的數目,以及,該通用資料表最近m天的平均子表數;採用如下公式依據該最近m天中每一天對該通用資料表進行過掃描的資料表的數目,以及,該通用資料表最近m天的平均子表數,計算出成本計算因數: 其中,m為最近m天中的每一天;scanm(j)為第m天對通用資料表j進行過掃描的資料表數目;分母為通用資料表j最近90天的平均子表數的範例。
  32. 根據申請專利範圍第29項所述的裝置,其中,該儲存成本計算因數獲取子單元進一步用於:獲取該外部資料表對其所依賴的通用資料表的掃描量,以及,與該通用資料表存在依賴關係的k張表;採用如下公式依據該外部資料表對其所依賴的通用資料表的掃描量,以及,與該通用資料表存在依賴關係的k張表,計算出儲存成本計算因數: 其中,scansize(i,j)為外部資料表i對通用資料表j的掃描量;m為與通用資料表j存在依賴關係的k張表,為編號1...k。
  33. 根據申請專利範圍第30項所述的裝置,其中,該掃描成本計算因數獲取子單元進一步用於:獲取該通用資料表中熱度欄位所占的比例,以及,該通用資料表在當前資料公共層中的依賴層級,該熱度欄位為在某一時間段內被使用的次數大於該通用資料表的直接下游資料表數量的欄位;採用如下公式依據該通用資料表中熱度欄位所占的比例,以及,該通用資料表在當前資料公共層中的層級,計算出掃描成本計算因數: 其中,hot_ratio(j)為通用資料表j的熱度欄位的數量占表中總欄位數量的比例;level(j)為通用資料表j在資料公共層中的依賴層級。
  34. 根據申請專利範圍第31或32或33項所述的裝置,其中,通過如下公式採用所述使用成本特徵參數計算該外部資料表的使用成本資料:cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j) 其中,i為外部資料表,j為通用資料表,資料表i與資料表j之間存在依賴關係;cost(i,j)為外部資料表i使用通用資料表j的使用成本資料;compcost(j)為通用資料表j的加工成本資料中的第一計算成本參數;compfac(i,j)為外部資料表i與通用資料表j之間的計算成本計算因數;storcost(j)為通用資料表j的加工成本資料中第一儲存成本參數;storfac(i,j)為外部資料表i與通用資料表j之間的儲存成本計算因數;scancost(j)為通用資料表j加工成本資料中的第一掃描成本參數;scanfac(i,j)為外部資料表i與通用資料表j之間的掃描成本計算因數。
  35. 根據申請專利範圍第20或21或22或23或25或27或28或29或30或31或32或33項所述的裝置,其中,還包括:第一提取模組,用於在該加工成本資料滿足第一預設條件時,提取對應的通用資料表。
  36. 根據申請專利範圍第35項所述的裝置,其中,該第一提取模組包括:第一提取子模組,用於在某張通用資料表的第一儲存 成本參數與第一計算成本參數的比值高於第一預設臨界值時,提取出該通用資料表;和/或,第二提取子模組,用於在某張通用資料表的第一計算成本參數高於第二預設臨界值時,提取出該通用資料表;和/或,第三提取子模組,用於在某張通用資料表的第一掃描成本參數與第一計算成本參數的比值高於第三預設臨界值時,提取出該通用資料表;和/或,第四統計子模組,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二計算成本參數之和;第四提取子模組,用於在該通用資料表的第一計算成本參數大於該第二計算成本參數之和時,提取出該通用資料表;和/或,第五統計子模組,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二儲存成本參數之和;第五提取子模組,用於在該通用資料表的第一儲存成本參數大於該第二儲存成本參數之和時,提取出該通用資料表;和/或,第六統計子模組,用於統計與某張通用資料表的存在直接依賴關係的外部資料表的第二掃描成本參數之和; 第六提取子模組,用於在該通用資料表的第一掃描成本參數大於該第二掃描成本參數之和時,提取出該通用資料表。
  37. 根據申請專利範圍第20或21或22或23或25或27或28或29或30或31或32或33或36項所述的裝置,其中,還包括:第二提取模組,用於在該使用成本資料滿足第二預設條件時,提取對應的外部資料表。
  38. 根據申請專利範圍第37項所述的裝置,其中,該第二提取模組包括:第七提取子模組,用於在某張外部資料表的第二儲存成本參數與第二計算成本參數的比值高於第四預設臨界值時,提取出該外部資料表;和/或,第八提取子模組,用於在某張外部資料表能夠從其他通用資料表獲得與當前通用資料表相同的資料,且在通過其他通用資料表獲取資料時的第二掃描成本參數小於從當前通用資料表獲取資料時的第二掃描成本參數時,提取出該外部資料表。
TW106101915A 2016-01-21 2017-01-19 一種資料表分析處理的方法和裝置 TW201732641A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610042109.0A CN106991101B (zh) 2016-01-21 2016-01-21 一种数据表分析处理的方法和装置

Publications (1)

Publication Number Publication Date
TW201732641A true TW201732641A (zh) 2017-09-16

Family

ID=59361344

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106101915A TW201732641A (zh) 2016-01-21 2017-01-19 一種資料表分析處理的方法和裝置

Country Status (5)

Country Link
US (1) US10909481B2 (zh)
EP (1) EP3407212A4 (zh)
CN (1) CN106991101B (zh)
TW (1) TW201732641A (zh)
WO (1) WO2017124959A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517009B (zh) * 2019-07-29 2023-01-24 创新先进技术有限公司 实时公共层建设方法、装置及服务器
CN110457329B (zh) * 2019-08-16 2022-05-06 第四范式(北京)技术有限公司 一种实现个性化推荐的方法及装置
CN112256720B (zh) * 2020-10-21 2021-08-17 平安科技(深圳)有限公司 数据成本计算方法、系统、计算机设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995958A (en) * 1997-03-04 1999-11-30 Xu; Kevin Houzhi System and method for storing and managing functions
US7260563B1 (en) * 2003-10-08 2007-08-21 Ncr Corp. Efficient costing for inclusion merge join
US7366716B2 (en) * 2005-05-06 2008-04-29 Microsoft Corporation Integrating vertical partitioning into physical database design
WO2008139936A1 (ja) * 2007-05-11 2008-11-20 Nec Corporation データベース構造化支援システム
CN100483395C (zh) * 2007-05-25 2009-04-29 金蝶软件(中国)有限公司 一种电子数据表计算链的生成方法和系统
US8312026B2 (en) * 2009-12-22 2012-11-13 At&T Intellectual Property I, L.P. Compressing massive relational data
US9020910B2 (en) * 2010-01-13 2015-04-28 International Business Machines Corporation Storing tables in a database system
CN102436494B (zh) * 2011-11-11 2013-05-01 中国工商银行股份有限公司 基于实践检验的执行计划优化的装置及方法
US9292690B2 (en) * 2011-12-12 2016-03-22 International Business Machines Corporation Anomaly, association and clustering detection
US10019478B2 (en) * 2013-09-05 2018-07-10 Futurewei Technologies, Inc. Mechanism for optimizing parallel execution of queries on symmetric resources
CN104899209B (zh) * 2014-03-05 2018-05-18 阿里巴巴集团控股有限公司 针对开放式数据处理服务的优化方法和装置
CN105224536A (zh) * 2014-05-29 2016-01-06 国际商业机器公司 划分数据库的方法和装置

Also Published As

Publication number Publication date
EP3407212A4 (en) 2019-06-19
EP3407212A1 (en) 2018-11-28
CN106991101A (zh) 2017-07-28
WO2017124959A1 (zh) 2017-07-27
US10909481B2 (en) 2021-02-02
CN106991101B (zh) 2021-02-02
US20180349811A1 (en) 2018-12-06

Similar Documents

Publication Publication Date Title
US10031671B2 (en) Method, apparatus, and system for calculating identification threshold to distinguish cold data and hot data
TWI668655B (zh) Risk information output, risk information construction method and device
WO2017080176A1 (zh) 个体用户画像方法和系统
WO2021174945A1 (zh) 数据成本计算方法、系统、计算机设备和存储介质
JP2018536940A (ja) ユーザ信用スコアを最適化するための方法および装置
WO2013073377A1 (ja) 情報拡散規模予測装置、情報拡散規模予測方法、および情報拡散規模予測プログラム
TW201732641A (zh) 一種資料表分析處理的方法和裝置
WO2019001429A1 (zh) 一种多源数据融合方法和装置
JP2016536718A (ja) ネットワークアクセス可能なサービスユニットのための顧客選択可能な電力源選択肢
WO2023108967A1 (zh) 基于隐私保护计算和跨组织的联合信用评分方法及装置
TW201923665A (zh) 風控決策臨界值的確定方法及裝置
CN110110974B (zh) 关键意见领袖的识别方法及计算机可读存储介质
WO2022156731A1 (zh) 信息处理方法及装置、服务器及用户设备
WO2018072619A1 (zh) 一种资源调度的方法、装置和系统
TW201737127A (zh) 資料檢索方法和裝置、資料儲存方法和裝置
Chen et al. Survey on data quality
WO2017020716A1 (zh) 一种用于数据访问控制的方法及设备
Baluch et al. A New Modified Three‐Term Hestenes–Stiefel Conjugate Gradient Method with Sufficient Descent Property and Its Global Convergence
Roy et al. Spatial heterogeneity in the urban household living conditions: A-GIS-based spatial analysis
WO2016197853A1 (zh) 一种基于复杂度的业务处理方法和装置
Wei et al. Statistical inference on semi-parametric partial linear additive models
Li et al. Adaptive dynamic trust measurement and prediction model based on behavior monitoring
CN102930046B (zh) 数据处理方法、计算节点及系统
Zhu et al. An Influence Maximization Algorithm Based on Improved K-Shell in Temporal Social Networks.
Sidi et al. Data quality comparative model for data warehouse