WO2017124959A1 - 一种数据表分析处理的方法和装置 - Google Patents

一种数据表分析处理的方法和装置 Download PDF

Info

Publication number
WO2017124959A1
WO2017124959A1 PCT/CN2017/070977 CN2017070977W WO2017124959A1 WO 2017124959 A1 WO2017124959 A1 WO 2017124959A1 CN 2017070977 W CN2017070977 W CN 2017070977W WO 2017124959 A1 WO2017124959 A1 WO 2017124959A1
Authority
WO
WIPO (PCT)
Prior art keywords
data table
cost
parameter
data
universal
Prior art date
Application number
PCT/CN2017/070977
Other languages
English (en)
French (fr)
Inventor
王伟
潘旻
罗金鹏
Original Assignee
阿里巴巴集团控股有限公司
王伟
潘旻
罗金鹏
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司, 王伟, 潘旻, 罗金鹏 filed Critical 阿里巴巴集团控股有限公司
Priority to EP17740990.1A priority Critical patent/EP3407212A4/en
Publication of WO2017124959A1 publication Critical patent/WO2017124959A1/zh
Priority to US16/041,336 priority patent/US10909481B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Definitions

  • the present application relates to the field of big data processing technologies, and in particular, to a data table analysis processing method and a data table analysis processing device.
  • data tables for some commonly used data, general data, will be unified processing and induction, forming some versatile, highly reusable, highly standardized and unified data table, composed The public layer of data.
  • data tables at the data common level are data that needs to be used frequently by various business units.
  • the processing cost of the data table is only measured by the computational hardware resources (such as CPU consumption, memory consumption) and storage resources (the consumption of the storage medium) consumed in the data processing process, that is, only isolated. Analyze the storage consumption and computational consumption of the current data sheet during processing.
  • the cost of using the data table is only an average of the data processing costs of the used table to the users of this data table, which is obviously not fair and reasonable. This will inevitably lead to the problem that the measurement of data processing cost or the measurement of data usage cost is not accurate enough in the prior art, thereby seriously affecting the judgment of data validity in the cloud computing environment, resulting in excessive data cost and excessive unnecessary Resource consumption.
  • the present application discloses a data table analysis processing method
  • the data table includes a general data table of a data common layer, and an external data table of a non-data common layer, the method includes:
  • the usage cost data of the external data table is calculated according to the processing cost data of the universal data table.
  • the step of calculating the processing cost data for the universal data table of the data common layer includes:
  • the processing cost data of the universal data table is calculated using the processing cost feature parameter.
  • the processing cost feature parameter includes a first scan cost parameter
  • the sub-step of extracting the processing cost feature parameter of the universal data table of the data common layer further includes:
  • the sub-step of calculating the processing cost data of the universal data table by using the processing cost feature parameter further includes:
  • the generic data table for the parent The scan quantity of the table, and the number of all the child tables under the parent table, calculate the first scan cost parameter.
  • the processing cost feature parameter further includes a first calculated cost parameter, and a first storage cost parameter
  • the sub-step of extracting the processing cost feature parameter of the universal data table of the data common layer further includes:
  • the storage amount of the general data table is extracted as a first storage cost parameter.
  • the number of parent tables on which the universal data table depends, and the scan amount of the parent data table by the universal data table, and the number of all child tables under the parent table are calculated by using the following formula
  • Cost(j) is the processing cost data of data table j
  • the data table j is the m parent table on which the data table i depends, numbered 1...m,
  • ScanSize(i,j) is the scan amount of the parent table j of the general data table i.
  • the data table m is all the child tables of the parent table j, numbered 1...n.
  • processing cost data of the universal data table is calculated by using the processing cost feature parameter by using the following formula:
  • ComputeCost(i) is the first calculated cost parameter of the universal data table i;
  • StorageCost(i) is the first storage cost parameter of the universal data table i;
  • ScanCost(i,j) is the first scan cost parameter of the generic data table i to the parent table j.
  • calculating the externality according to processing cost data of the universal data table The steps of using the cost data of the data table are,
  • the usage cost data of the external data table is calculated according to the processing cost characteristic parameter of the universal data table.
  • the step of calculating the usage cost data of the external data table according to the processing cost characteristic parameter of the universal data table includes:
  • the usage cost data of the external data table is calculated using the usage cost feature parameter.
  • the usage cost feature parameter includes a second calculated cost parameter
  • the usage cost feature parameter includes a second storage cost parameter
  • the usage cost feature parameter includes a second scan cost parameter
  • the sub-step of obtaining a calculation cost calculation factor between the external data table and the universal data table on which the external data table depends is further included:
  • Scanm(j) is the number of data tables over which the universal data table j was scanned on the mth day;
  • the denominator is an example of the average number of sub-tables for the last 90 days of the general data table j.
  • the sub-step of obtaining a storage cost calculation factor between the external data table and the universal data table on which the external data table depends is further included:
  • the storage cost calculation factor is calculated according to the scan amount of the common data table on which the external data table depends, and the k sheets having a dependency relationship with the common data table as follows:
  • scansize(i,j) is the scan amount of the external data table i to the general data table j;
  • m is a k-sheet having a dependency relationship with the general data table j, and is numbered 1...k.
  • the sub-step of obtaining a scan cost calculation factor between the external data table and the universal data table on which the external data table depends is further included:
  • the scan cost calculation factor is calculated according to the proportion of the heat field in the universal data table according to the formula, and the level of the general data table in the current data common layer:
  • hot_ratio(j) is the ratio of the number of heat fields of the general data table j to the total number of fields in the table
  • Level(j) is the dependency hierarchy of the generic data table j in the data common layer.
  • the usage cost data of the external data table is calculated by using the usage cost feature parameter by using the following formula:
  • Cost(i,j) compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
  • i is an external data table
  • j is a general data table, and there is a dependency relationship between the data table i and the data table j;
  • Cost(i,j) is the use cost data of the general data table j for the external data table i;
  • Compcost(j) is the first calculated cost parameter in the processing cost data of the general data table j;
  • Compfac(i,j) is a calculation cost calculation factor between the external data table i and the general data table j;
  • Storcost(j) is the first storage cost parameter in the processing cost data of the general data table j;
  • Storfac(i,j) is a storage cost calculation factor between the external data table i and the general data table j;
  • Scancost(j) is the first scan cost parameter in the processing cost data of the general data table j;
  • Scanfac(i,j) is the scan cost calculation factor between the external data table i and the general data table j.
  • the method further includes:
  • the processing cost data satisfies the first preset condition
  • the corresponding general data table is extracted.
  • the step of extracting the corresponding universal data table includes:
  • the method further includes:
  • the corresponding external data table is extracted.
  • the step of extracting the corresponding external data table includes:
  • an external data table can obtain the same data from the current common data table from other general data tables, and the second scan cost parameter when acquiring data through other general data tables is smaller than the second when the data is acquired from the current general data table Scan the cost parameter to extract the external data table.
  • the present application further discloses an apparatus for analyzing data table data, wherein the data table includes a general data table of a common layer of data, and an external data table of a non-data common layer, the The device includes:
  • a processing cost calculation module configured to calculate processing cost data for a common data table of the data common layer
  • a determining module configured to determine a general data table on which the external data table of the non-data common layer depends
  • the cost calculation module is configured to calculate usage cost data of the external data table according to the processing cost data of the universal data table.
  • the processing cost calculation module includes:
  • Processing cost feature parameter extraction sub-module for extracting a common number of the data common layer According to the processing cost characteristic parameters of the table;
  • a processing cost calculation sub-module for calculating processing cost data of the universal data table by using the processing cost characteristic parameter.
  • processing cost feature parameter includes a first scan cost parameter
  • processing cost feature parameter extraction submodule further includes:
  • a parent table quantity statistics unit for counting the number of parent tables on which the universal data table depends
  • a scan quantity obtaining unit configured to acquire a scan quantity of the parent data table by the universal data table
  • a sub-table quantity statistics unit for counting the number of all sub-tables under the parent table
  • the processing cost calculation sub-module further includes:
  • a first scan cost calculation unit configured to adopt a number of parent tables on which the universal data table depends, a scan amount of the common data table for the parent table, and a quantity of all child tables under the parent table, The first scan cost parameter is output.
  • processing cost feature parameter further includes a first calculated cost parameter, and a first storage cost parameter
  • processing cost feature parameter extraction sub-module further includes:
  • a first calculation cost parameter extraction unit configured to extract a complexity CU of the universal data table as a first calculation cost parameter
  • the first storage cost parameter extracting unit is configured to extract the storage amount of the universal data table as a first storage cost parameter.
  • the number of parent tables on which the universal data table depends, and the scan amount of the parent data table by the universal data table, and the number of all child tables under the parent table are calculated by using the following formula
  • Cost(j) is the processing cost data of data table j
  • the data table j is the m parent table on which the data table i depends, numbered 1...m,
  • ScanSize(i,j) is the scan amount of the parent table j of the general data table i.
  • the data table m is all the child tables of the parent table j, numbered 1...n.
  • processing cost data of the universal data table is calculated by using the processing cost feature parameter by using the following formula:
  • ComputeCost(i) is the first calculated cost parameter of the universal data table i;
  • StorageCost(i) is the first storage cost parameter of the universal data table i;
  • ScanCost(i,j) is the first scan cost parameter of the generic data table i to the parent table j.
  • the usage cost calculation module includes:
  • the cost calculation sub-module is configured to calculate usage cost data of the external data table according to the processing cost characteristic parameter of the universal data table.
  • the usage cost calculation submodule includes:
  • a processing cost feature parameter extracting unit configured to extract a processing cost feature parameter of the universal data table on which the external data table of the non-data common layer depends;
  • a cost feature parameter calculation unit configured to calculate a usage cost feature parameter of the external data table by using the processing cost feature parameter
  • the usage cost data calculation unit is configured to calculate usage cost data of the external data table by using the usage cost feature parameter.
  • the usage cost feature parameter includes a second calculated cost parameter
  • the processing cost feature parameter extraction unit includes:
  • a first calculating cost parameter advance subunit configured to extract a first calculated cost parameter of the universal data table on which the external data table depends
  • the usage cost feature parameter calculation unit includes:
  • a second calculation cost parameter calculation subunit configured to correct the first calculation cost parameter by using the calculation cost calculation factor, and obtain a second calculation cost parameter.
  • the usage cost feature parameter includes a second storage cost parameter
  • the processing cost feature parameter extraction unit includes:
  • a first storage cost parameter extraction subunit configured to extract a first storage cost parameter of the universal data table on which the external data table depends
  • the usage cost feature parameter calculation unit further includes:
  • a storage cost calculation factor acquisition subunit configured to acquire a storage cost calculation factor between the external data table and the universal data table on which the external data table depends;
  • a second storage cost parameter calculation subunit configured to correct the first storage cost parameter by using the storage cost calculation factor to obtain a second storage cost parameter.
  • the usage cost feature parameter includes a second scan cost parameter
  • the processing cost feature parameter extraction unit includes:
  • a first scan cost parameter extraction subunit configured to extract a first scan cost parameter of the universal data table on which the external data table depends
  • the usage cost feature parameter calculation unit further includes:
  • a scan cost calculation factor acquisition subunit configured to obtain a scan cost calculation factor between the external data table and the universal data table on which the external data table depends;
  • a second scan cost parameter calculation subunit for calculating the storage cost calculation factor The first scan cost parameter is being obtained, and the second scan cost parameter is obtained.
  • the calculating cost calculation factor obtaining subunit is further configured to:
  • Scanm(j) is the number of data tables over which the universal data table j was scanned on the mth day;
  • the denominator is an example of the average number of sub-tables for the last 90 days of the general data table j.
  • the storage cost calculation factor acquisition subunit is further configured to:
  • the storage cost calculation factor is calculated according to the scan amount of the common data table on which the external data table depends, and the k sheets having a dependency relationship with the common data table as follows:
  • scansize(i,j) is the scan amount of the external data table i to the general data table j;
  • m is a k-sheet having a dependency relationship with the general data table j, and is numbered 1...k.
  • the scan cost calculation factor acquisition subunit is further used to:
  • the scan cost calculation factor is calculated according to the proportion of the heat field in the universal data table according to the formula, and the level of the general data table in the current data common layer:
  • hot_ratio(j) is the ratio of the number of heat fields of the general data table j to the total number of fields in the table
  • Level(j) is the dependency hierarchy of the generic data table j in the data common layer.
  • the usage cost data of the external data table is calculated by using the usage cost feature parameter by using the following formula:
  • Cost(i,j) compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
  • i is an external data table
  • j is a general data table, and there is a dependency relationship between the data table i and the data table j;
  • Cost(i,j) is the use cost data of the general data table j for the external data table i;
  • Compcost(j) is the first calculated cost parameter in the processing cost data of the general data table j;
  • Compfac(i,j) is a calculation cost calculation factor between the external data table i and the general data table j;
  • Storcost(j) is the first storage cost parameter in the processing cost data of the general data table j;
  • Storfac(i,j) is a storage cost calculation factor between the external data table i and the general data table j;
  • Scancost(j) is the first scan cost parameter in the processing cost data of the general data table j;
  • Scanfac(i,j) is the scan cost calculation factor between the external data table i and the general data table j.
  • the device further includes:
  • the first extraction module is configured to extract a corresponding universal data table when the processing cost data meets the first preset condition.
  • the first extraction module includes:
  • a first extraction submodule configured to extract the universal data table when a ratio of a first storage cost parameter of a common data table to a first calculated cost parameter is higher than a first preset threshold
  • a second extraction submodule configured to extract the universal data table when a first calculated cost parameter of a common data table is higher than a second preset threshold
  • a third extraction submodule configured to extract the universal data table when a ratio of a first scan cost parameter to a first calculated cost parameter of a common data table is higher than a third preset threshold
  • a fourth statistical sub-module configured to calculate a sum of second calculated cost parameters of the external data table directly dependent on the existence of a common data table
  • a fourth extraction submodule configured to extract the universal data table when a first calculated cost parameter of the universal data table is greater than a sum of the second calculated cost parameters
  • a fifth statistical sub-module configured to calculate a sum of second storage cost parameters of the external data table directly dependent on the existence of a common data table
  • a fifth extraction submodule configured to extract the universal data table when a first storage cost parameter of the universal data table is greater than a sum of the second storage cost parameters
  • a sixth statistical sub-module configured to calculate a sum of second scan cost parameters of the external data table directly dependent on the existence of a common data table
  • a sixth extraction submodule configured to extract the universal data table when a first scan cost parameter of the universal data table is greater than a sum of the second scan cost parameters.
  • the device further includes:
  • a second extraction module configured to extract a corresponding external data table when the usage cost data meets the second preset condition.
  • the second extraction module includes:
  • a seventh extraction submodule configured to extract the external data table when a ratio of a second storage cost parameter of a certain external data table to a second calculated cost parameter is higher than a fourth preset threshold
  • the eighth extraction sub-module is configured to obtain the same data from the other universal data table as the current common data table in an external data table, and the second scan cost parameter when acquiring data through other common data tables is smaller than the current general data
  • the external data table is extracted.
  • the embodiments of the present application include the following advantages:
  • the scanning cost parameter is introduced, and the cost evaluation manner of the data table is optimized, so that each general data table in the common layer of the data is
  • the cost is evaluated, the current data table's own storage and computational consumption are no longer considered in isolation, and several upstream data tables and sibling data tables of the data table are comprehensively considered, so that the universal data table can be reasonably and accurately evaluated.
  • the processing cost reflects the strengths and weaknesses of the data model construction of the data common layer, and provides decision support for the data public layer model optimization and operation.
  • the consumption of the storage, calculation, and scanning caused by the common data table of the common data table of the other external data table can be clearly evaluated. It is convenient to evaluate the rationality and necessity of the external data table to access the data common layer common data table, thereby assisting the business department to optimize the construction of its own data table, avoiding waste of resources caused by data duplication construction, improving data resource utilization and reducing data cost. Thereby achieving the goal of saving costs as a whole.
  • the cost consumption of the upstream data table can be inherited by the downstream data table according to a reasonable ratio, and at the same time, by comprehensively considering the storage amount, the scanning amount, and the data table.
  • the degree of use, the processing level of the data table, and the proportion of the heat field of the data table make the calculation of the use cost of the external data table more reasonable and more accurate.
  • the embodiment of the present application analyzes the processing cost data of the general data table and the usage cost data of the external data table, and compares it with a preset threshold, thereby specifically identifying the data with excessive cost consumption.
  • the table helps to optimize the data table to further achieve cost savings.
  • Embodiment 1 is a flow chart showing the steps of Embodiment 1 of a data table analysis processing method of the present application;
  • FIG. 2 is a schematic diagram of a general data table model of a data common layer of the present application
  • FIG. 3 is a schematic diagram showing the relationship between a general data table and an external data table of the present application
  • Embodiment 4 is a flow chart showing the steps of Embodiment 2 of a data table analysis processing method of the present application;
  • FIG. 5 is a schematic diagram showing the relationship between another general data table and an external data table of the present application.
  • FIG. 6 is a structural block diagram of an apparatus embodiment of a data table analysis process of the present application.
  • the processing cost of the data table is only measured by the computational hardware resources (such as CPU consumption, memory consumption) and storage resources (the consumption of the storage medium) consumed in the data processing process.
  • the generation of a data table the data may come from the upstream N data tables, that is, the generation of a data table depends on the upstream N data tables.
  • the existing cost measurement model only analyzes the storage consumption and computational consumption of the current data table during the processing, and does not take into account the dependencies between the data tables, thus ignoring the scanning consumption between the data tables.
  • the cost of using the data table in the prior art is only to evenly distribute the data processing cost of the used table to each user of the data table, and different allocation methods are not adopted according to the specific access conditions of each user. Since different users use different data sheets differently, some users access a large amount of data, and the calculation is complicated. Some users only read a small amount of data, and the calculation is very simple. If the sharing method is adopted, the scanning costs incurred by the two users are the same, but this is obviously unfair and unreasonable.
  • the present application creatively proposes two measurement models for performing data table analysis processing, which are respectively a measurement model of data processing cost of the data common layer, and a data use cost of the external data object BU accessing the data common layer data. Measurement model.
  • the data public domain data processing cost measurement model including calculation cost assessment, storage cost assessment and scan cost assessment three parts.
  • the calculation cost estimate and the storage cost estimate reflect the actual hardware and software consumption of the data table during the data processing process from the perspective of the general data table itself.
  • the scanning cost is because the calculation of the scan cost in the data processing process, the calculation of the scan cost is based on the proportion of the scan of the parent table to the total scan volume of the parent table, and the cost of the parent table is shared as a child table pair.
  • the scan cost of the parent table is because the calculation of the scan cost in the data processing process, the calculation of the scan cost is based on the proportion of the scan of the parent table to the total scan volume of the parent table, and the cost of the parent table is shared as a child table pair. The scan cost of the parent table.
  • the external data object BU access data common layer data data usage cost measurement model: According to the data processing cost consumption measurement method, you can get the three parts of the used data table cost, namely calculation cost, storage cost, scanning cost. For the cost of using this data table, these three parts of the cost can be calculated by weighting and summing the corresponding proportions.
  • the three-part cost allocation algorithm can vary.
  • the data processing cost for each data table of the data common layer is smaller than the sum of the data usage costs of the direct downstream of the table.
  • This data table meets the requirements of the data common layer, and only exists in the data public. The value of the layer.
  • FIG. 1 a flow chart of a first embodiment of a method for analyzing data table data of the present application is shown, wherein the data table may include a general data table of a common layer of data, and an external part of a non-data common layer.
  • the data table specifically includes the following steps:
  • Step 101 Calculate processing cost data for a general data table of the data common layer
  • the processing cost data of the general data table may include not only computational hardware resources (such as CPU consumption, memory consumption) and storage resources (storage resources) consumed in data processing of the data table. Consumption) can also include dependencies between data tables, ie scan consumption between data tables.
  • a data table is generated, and the data may be from the upstream N data tables. Therefore, the scanning consumption between the data tables reflects the dependence on the data table during processing. The amount of data scanned by the data table.
  • FIG. 2 a schematic diagram of a general data table model of a common layer of data is shown. Each circle A, B, C, D, E, and F respectively represent six general data tables of a common layer of data, and two circles in the figure. The arrow between the two indicates the data mutual access relationship between the two common data tables, that is, the scanning relationship.
  • the arrow between the general data table B and the general data table A indicates that the general data table B needs to scan the general data table A, and the number on the arrow represents the size of the scan amount in units of TB, so the general data table B in FIG. 2 needs The data for scanning the general data table A is 2 TB.
  • the calculating the processing cost data for the universal data table of the data common layer may specifically include the following sub-steps:
  • Sub-step 1011 extracting a processing cost feature parameter of the universal data table of the data common layer
  • Sub-step 1012 calculating processing cost data of the universal data table by using the processing cost feature parameter.
  • the processing cost feature parameter may include a first calculated cost parameter, and a first storage cost parameter, where the processing cost feature parameter of the general data table of the data common layer is extracted
  • the sub-steps can further include:
  • the storage amount of the general data table is extracted as a first storage cost parameter.
  • the first calculated cost parameter may be a CPU resource that needs to be consumed in the process of performing data processing by the universal data table, and may be calculated by using a complexity CU, and 1 CU represents one CPU (core) for one day.
  • Complexity CU It is obtained from the Open Data Processing Service (ODPS) cluster metadata of the Open Data Processing Service (ODPS).
  • ODPS is a large-scale distributed data processing service that can support the processing of massive amounts of data.
  • the first storage cost parameter may be a hard disk storage resource that is required to store the universal data table, and may be calculated by a storage amount TU, and 1TU represents a cost consumption required for 1 TB data storage one day.
  • the storage capacity TU can also be obtained from the ODPS cluster metadata.
  • a new resource consumption measurement unit that is, a resource unit
  • a resource unit may be introduced as a CT.
  • the processing cost feature parameter may further include a first scan cost parameter
  • the sub-step of extracting the processing cost feature parameter of the universal data table of the data common layer may further include:
  • the sub-step of calculating the processing cost data of the universal data table by using the processing cost feature parameter may further include:
  • the first scan cost parameter is calculated by using the number of parent tables on which the universal data table depends, the scan amount of the common data table for the parent table, and the number of all child tables under the parent table.
  • the arrow between the general data table C and the general data table A represents that the general data table C needs to scan the general data table A, that is, the general data table A is universal.
  • the parent table of the data table C indicates that the scan amount of the child table C to the parent table A is 1 TB, and the number of child tables under the parent table A is three, that is, the general data table B, the general data table C And generic data sheet D.
  • the first scan cost parameter can be calculated.
  • the first scan cost parameter can be calculated by the following formula:
  • Cost(j) is the processing cost data of data table j
  • the data table j is the m parent table on which the data table i depends, numbered 1...m,
  • ScanSize(i,j) is the scan amount of the parent table j of the general data table i.
  • the data table m is all the child tables of the parent table j, numbered 1...n.
  • the processing cost data of the universal data table may be calculated using a first calculated cost parameter, a first stored cost parameter, and a first scan cost parameter.
  • processing cost data of the universal data table can be calculated by the following formula:
  • ComputeCost(i) is the first calculated cost parameter of the universal data table i;
  • StorageCost(i) is the first storage cost parameter of the universal data table i;
  • ScanCost(i,j) is the first scan cost parameter of the generic data table i to the parent table j.
  • Step 102 Determine a universal data table on which the external data table of the non-data common layer depends;
  • the general data table on which the external data table depends may be first determined.
  • FIG. 3 a schematic diagram of a relationship between a general data table and an external data table is shown.
  • Table A, Table B, and Table C in FIG. 3 respectively represent a general data table of the data common layer, and Table D represents a non-data common layer.
  • the external data table D can access the general data table B and the general data table C.
  • the four numbers in the circle in each general data table respectively represent the first calculated cost parameter of the universal data table, the first storage cost parameter, the first scan cost parameter, and the total data storage amount.
  • the first calculated cost parameter of the general data table A is 1CT
  • the first storage cost parameter is 2CT
  • the first scan cost parameter is 2CT
  • the data storage amount of the general data table A is 10TB.
  • the numbers on the arrows of the external data table D and the general data table B indicate that the data amount of the external data table D scan common data table B is 2 TB.
  • Step 103 Calculate the external number according to processing cost data of the universal data table. According to the use cost data of the table;
  • the usage cost data of the external data table may be calculated according to the processing cost data of the universal data table. Specifically, the usage cost data of the external data table may be calculated according to the processing cost feature parameter of the universal data table.
  • the step of calculating the usage cost data of the external data table according to the processing cost characteristic parameter of the universal data table may specifically include:
  • the usage cost data of the external data table is calculated using the usage cost feature parameter.
  • the processing feature parameter of the universal data table may be extracted, so that the universal data table and the universal The dependency relationship between the data tables, the usage cost characteristic parameter of the external data table is calculated, and the usage cost data of the external data table is obtained.
  • the usage cost feature parameter may include a second calculation cost parameter, a second storage cost parameter, and a second scan cost parameter.
  • the second calculated cost parameter may be a CPU resource required by the external data table in the process of using the general data table of the data common layer, and may also be calculated by the complexity CU; the second storage cost parameter may be a common data table.
  • the hard disk storage resource required for storage may be calculated by the storage amount TU; the second scan cost parameter may reflect the scanning relationship between the external data table and the common data table of the data common layer.
  • the method may further include step 104 and step 105.
  • Step 104 When the processing cost data meets the first preset condition, extract a corresponding general data table
  • Step 105 When the usage cost data satisfies the second preset condition, extract the corresponding external data table.
  • the processing cost data and the usage cost data may be respectively compared with the first preset condition and the first The two preset conditions are compared to determine whether the corresponding preset condition is met, and if so, the corresponding general data table, or the external data table, may be extracted.
  • the first calculated cost parameter, the first storage cost parameter, and the first may be separately determined. Whether the scan cost parameter meets the preset condition. If the first storage cost parameter is too high, it may be considered to reduce the storage amount for the universal data table; if the first calculation cost parameter is higher, the calculation logic of the universal data table may be optimized to reduce the computational complexity; If the scan cost parameter is high, the processing link of the universal data table can be optimized to reduce the amount of scan data for the parent table that is useless.
  • the data consumer can be urged according to the obtained use cost data, only the necessary data amount is read from the data common layer, the scanning of the useless data is reduced, and the deeper level is used as much as possible.
  • the general data table because the deeper common data table is a table processed deep through the data common layer, which is a fine table.
  • the scanning cost parameter is introduced, and the cost evaluation method of the data table is optimized, so that the cost of each common data table in the data common layer is evaluated.
  • the cost evaluation method of the data table is optimized, so that the cost of each common data table in the data common layer is evaluated.
  • a plurality of upstream data tables and sibling data tables of the data table are comprehensively considered, so that the processing cost of the universal data table can be reasonably and accurately evaluated. This reflects the strengths and weaknesses of the data model construction of the data common layer, and provides decision support for data public layer model optimization and operation.
  • the external data table of the public data layer of the other external data table can be clearly evaluated.
  • the consumption, calculation, and scanning consume three parts, which is convenient for evaluating the rationality and necessity of accessing the common data table of the public data layer of the external data table, thereby assisting the business department to optimize the construction of its own data table and avoid the waste of resources caused by repeated data construction. Improve the utilization of data resources and reduce the cost of data, so as to achieve overall cost savings.
  • FIG. 4 a flow chart of a second embodiment of a method for analyzing data table data of the present application is shown, wherein the data table may include a general data table of a common layer of data, and an external part of a non-data common layer.
  • the data table specifically includes the following steps:
  • Step 201 Extract a processing cost characteristic parameter of a general data table of the data common layer
  • the processing cost feature parameter of the universal data table may include a first calculated cost parameter, a first storage cost parameter, and a first scan cost parameter.
  • the first calculated cost parameter may be a CPU resource that needs to be consumed in the process of performing data processing by the universal data table, and is calculated by a complexity CU; the first storage cost parameter may be required when storing the universal data table.
  • the consumed hard disk storage resource is calculated by the storage quantity TU; the first scanning cost parameter reflects the scanning quantity of the common data table associated with the universal data table, and may be based on the number of parent tables that the universal data table depends on The universal data table calculates the scan amount of the parent table, and the number of all the child tables under the parent table.
  • a new resource consumption measurement unit that is, a resource unit
  • a resource unit may be introduced as a CT.
  • Step 202 Calculate processing cost data of the universal data table by using the processing cost feature parameter
  • processing cost data of the universal data table can be calculated by the following formula:
  • ComputeCost(i) is the first calculated cost parameter of the universal data table i;
  • StorageCost(i) is the first storage cost parameter of the universal data table i;
  • ScanCost(i,j) is the first scan cost parameter of the generic data table i to the parent table j.
  • Step 203 Determine a universal data table on which the external data table of the non-data common layer depends;
  • the general data table on which the external data table D of the non-data common layer depends includes the general data table B and the general data table C.
  • Step 204 Extract a processing cost feature parameter of the universal data table on which the external data table of the non-data common layer depends;
  • the usage cost feature parameter may include a second calculation cost parameter; therefore, the processing cost feature parameter of the universal data table on which the external data table of the non-data common layer is extracted is extracted.
  • the sub-steps may be: extracting a first calculated cost parameter of the generic data table on which the external data table depends.
  • the usage cost feature parameter may further include a second storage cost parameter; therefore, the processing cost of the general data table on which the external data table of the non-data common layer is extracted depends
  • the sub-step of the feature parameter may also be: extracting a first storage cost parameter of the generic data table on which the external data table depends.
  • the usage cost feature parameter may also include a second scan cost parameter; therefore, the processing cost of the general data table on which the external data table of the non-data common layer is extracted depends
  • the sub-step of the feature parameter may be: extracting a first scan cost parameter of the generic data table on which the external data table depends.
  • the general data table on which the external data table depends is the general data table B and the general data table C
  • the second calculated cost parameter the first of the general data table B and the general data table C may be separately extracted.
  • the first calculated cost parameter of the table C is 1CT; for the second storage cost parameter, the second storage cost parameter of the universal data table B and the general data table C can be separately extracted, and the second storage cost parameter of the universal data table B is 1CT
  • the second storage cost parameter of the universal data table C is 4CT; for the second scan cost parameter, the second scan cost parameter of the universal data table B and the universal data table C, and the second scan cost parameter of the universal data table B may be separately extracted.
  • the second scan cost parameter of the general data table C is 2CT.
  • Step 205 Calculate a usage cost characteristic parameter of the external data table by using the processing cost feature parameter
  • the step of calculating the usage cost feature parameter of the external data table by using the processing cost feature parameter may include:
  • a calculation cost calculation factor is introduced, and the first calculation cost parameter is corrected by using the calculation cost calculation factor, thereby obtaining a second calculation cost parameter.
  • the calculation factor embodies the proportion of the usage of the parent table to the parent table in the process of using the universal data table.
  • the sub-steps of the costing factor may further include:
  • the cost calculation factor can be calculated using the following formula to obtain a second calculated cost parameter:
  • Scanm(j) is the number of data tables over which the universal data table j was scanned on the mth day;
  • the denominator is an example of the average number of sub-tables for the last 90 days of the general data table j.
  • the step of calculating the usage cost feature parameter of the external data table by using the processing cost feature parameter may further include:
  • the second storage cost parameter may also be obtained by correcting the first storage cost parameter by using the storage cost calculation factor.
  • the sub-step of obtaining a storage cost calculation factor between the external data table and the universal data table on which the external data table depends may further include:
  • the storage cost calculation factor can be calculated by using the following formula to obtain the second storage. Cost parameter:
  • scansize(i,j) is the scan amount of the external data table i to the general data table j;
  • m is a k-sheet having a dependency relationship with the general data table j, and is numbered 1...k.
  • the step of calculating the usage cost feature parameter of the external data table by using the processing cost feature parameter may further include:
  • the scan cost calculation factor may also be obtained, and the ratio of the scan amount of the child table to the parent table to the total scanned amount of the parent table may be determined, and the first scan cost parameter is corrected by using the ratio. , thereby obtaining a second scan cost parameter.
  • the sub-step of acquiring the scan cost calculation factor between the external data table and the universal data table on which the external data table depends may further include:
  • any one of the fields a in the table if the number of times the field a is used by the downstream data table in a certain period of time is greater than the number of direct downstream tables of the universal data table, then Field a is the heat field of the generic data table. Therefore, for any general data table, the ratio of the number of heat fields in the table to the total number of fields in the table is the proportion of the heat field. In general, the time period for which the heat field is counted can be calculated in one day.
  • the dependency hierarchy of the generic data table reflects that the generic data table is common to the current data.
  • the dependencies between other common data tables in the layer Referring to FIG. 3, a total of three general data tables, that is, a general data table A, a general data table B, and a general data table C are included in the data common layer. If the dependency level of the general data table A is 1, the dependency level of the general data table B and the general data table C is 2.
  • the scan cost calculation factor may be calculated by using the following formula to obtain a second scan cost parameter:
  • hot_ratio(j) is the ratio of the number of heat fields of the general data table j to the total number of fields in the table
  • Level(j) is the dependency hierarchy of the generic data table j in the data common layer.
  • Step 206 Calculate usage cost data of the external data table by using the usage cost feature parameter
  • the second calculation cost parameter and the second storage cost parameter may be used.
  • the second scan cost parameter is accumulated to obtain usage cost data of the external data table.
  • the usage cost data of the external data table may be calculated by the following formula:
  • Cost(i,j) compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
  • i is an external data table
  • j is a general data table, and there is a dependency relationship between the data table i and the data table j;
  • Cost(i,j) is the use cost data of the general data table j for the external data table i;
  • Compcost(j) is the first calculated cost parameter in the processing cost data of the general data table j;
  • Compfac(i,j) is a calculation cost calculation factor between the external data table i and the general data table j;
  • Storcost(j) is the first storage cost parameter in the processing cost data of the general data table j;
  • Storfac(i,j) is a storage cost calculation factor between the external data table i and the general data table j;
  • Scancost(j) is the first scan cost parameter in the processing cost data of the general data table j;
  • Scanfac(i,j) is the scan cost calculation factor between the external data table i and the general data table j.
  • Step 207 When the processing cost data meets the first preset condition, extract a corresponding general data table
  • Step 208 When the usage cost data meets the second preset condition, extract the corresponding external data table.
  • the universal data table and the processing data and the usage cost data may be used according to the processing data and the usage cost data.
  • the external data table is analyzed to determine if the data table needs to be optimized.
  • the step of extracting the corresponding universal data table may include:
  • the storage cost of the universal data table may be considered to be high, and the General data sheets, consider reducing storage.
  • the calculation logic of the general data table may be optimized to reduce the amount of calculation.
  • the ratio of the first scan cost parameter to the first calculated cost parameter of the universal data table is greater than 10, it may be considered that the first scan cost parameter is higher, then the processing link of the universal data table may be considered to be optimized. Reduce the amount of scan data that is useless to the parent table.
  • the first calculated cost parameter of the universal data table is greater than the sum of the calculated costs of all users of the universal data table, or the first storage cost parameter of the universal data table is greater than the universal data table.
  • the sum of the storage costs of all users, or the first scan cost parameter of the universal data table is greater than the sum of the scan costs of all users of the universal data table, and the universal data table can be identified and extracted. For further processing.
  • the step of extracting the corresponding external data table may include:
  • an external data table can obtain the same data from the current common data table from other general data tables, and the second scan cost parameter when acquiring data through other general data tables is smaller than the second when the data is acquired from the current general data table Scan the cost parameter to extract the external data table.
  • the ratio of the second storage cost parameter of the external data table to the second calculated cost parameter is greater than 1/4, it may be considered that the storage cost of the external data table is too high, and the external data table may be extracted. Consider reducing the amount of storage.
  • the second scan cost parameter is smaller than the external data table.
  • the dependency of the external data table may be considered to be optimized to reduce the scanning cost.
  • the cost consumption of the upstream data table can be inherited by the downstream data table according to a reasonable ratio, and at the same time, by comprehensively considering the storage amount, the scanning amount, the multiplexing degree of the data table, and the data.
  • the processing level of the table and the proportion of the heat field of the data table make the calculation of the use cost of the external data table more reasonable and more accurate.
  • the embodiment of the present application analyzes the processing cost data of the general data table and the usage cost data of the external data table, and compares it with a preset threshold, thereby specifically identifying the data table with excessive cost consumption. To help further optimize the data table to achieve cost savings.
  • the data common layer includes four general data tables, namely, the general data table A, the general data table B, the general data table C, and the general data table D; the external data of the non-public data layer A total of 2 tables, namely external data table E and external data table F
  • the storage amount of the general data table B is 10 TB
  • the storage amount of the general data table A is 20 TB
  • the general data table B scans the data of the general data table A 1TB.
  • the storage amount of the general data table C is 6 TB
  • the storage amount of the general data table B is 10 TB
  • the general data table C scans the data of the general data table B 2 TB.
  • the storage amount of the external data table E is 12 TB
  • the storage amount of the general data table C is 6 TB
  • the external data table E scans the data of the general data table C 2TB.
  • FIG. 5 a schematic diagram of another general data table and an external data table of the present application as shown in FIG. 5 can be constructed.
  • Cost(i,j) compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
  • FIG. 6 there is shown a structural block diagram of an apparatus embodiment of a data table analysis process of the present application, wherein the data table may include a general data table of a common layer of data, and an external data table of a non-data common layer.
  • the device may specifically include the following modules:
  • the processing cost calculation module 301 is configured to calculate processing cost data for the general data table of the data common layer;
  • a determining module 302 configured to determine a universal data table on which the external data table of the non-data common layer depends
  • the usage cost calculation module 303 is configured to calculate usage cost data of the external data table according to the processing cost data of the universal data table.
  • the processing cost calculation module 301 may specifically include the following sub-modules:
  • the processing cost feature parameter extraction sub-module 3011 is configured to extract a processing cost feature parameter of the universal data table of the data common layer;
  • the processing cost calculation sub-module 3012 is configured to calculate processing cost data of the universal data table by using the processing cost feature parameter.
  • the processing cost feature parameter may include a first scan cost parameter
  • the processing cost feature parameter extraction sub-module 3011 may further include the following units:
  • the parent table quantity statistics unit 111A is configured to count the number of parent tables on which the universal data table depends;
  • the scan quantity obtaining unit 111B is configured to acquire the scan of the parent table by the universal data table Tracing
  • the sub-table quantity statistics unit 111C is configured to count the number of all the sub-tables under the parent table
  • the processing cost calculation sub-module 3012 may further include the following units:
  • a first scan cost calculation unit 121A configured to adopt a number of parent tables on which the universal data table depends, a scan amount of the common data table to the parent table, and a quantity of all child tables under the parent table, The first scan cost parameter is calculated.
  • the processing cost feature parameter may further include a first calculated cost parameter, and a first storage cost parameter
  • the processing cost feature parameter extraction sub-module 3011 may further include the following unit :
  • the first calculation cost parameter extraction unit 112A is configured to extract the complexity CU of the universal data table as a first calculation cost parameter
  • the first storage cost parameter extracting unit 113A is configured to extract the storage amount of the universal data table as the first storage cost parameter.
  • the number of parent tables that the universal data table depends on and the scan amount of the common data table to the parent table, and all children in the parent table may be adopted by the following formula.
  • Cost(j) is the processing cost data of data table j
  • the data table j is the m parent table on which the data table i depends, numbered 1...m,
  • ScanSize(i,j) is the scan amount of the parent table j of the general data table i.
  • the data table m is all the child tables of the parent table j, numbered 1...n.
  • the processing cost data of the general data table may be calculated by using the processing cost feature parameter by using the following formula:
  • ComputeCost(i) is the first calculated cost parameter of the universal data table i;
  • StorageCost(i) is the first storage cost parameter of the universal data table i;
  • ScanCost(i,j) is the first scan cost parameter of the generic data table i to the parent table j.
  • the usage cost calculation module 303 may specifically include the following sub-modules:
  • the usage cost calculation sub-module 3031 is configured to calculate usage cost data of the external data table according to the processing cost characteristic parameter of the universal data table.
  • the usage cost calculation sub-module 3031 may specifically include the following units:
  • the processing cost feature parameter extracting unit 311 is configured to extract a processing cost feature parameter of the general data table on which the external data table of the non-data common layer depends;
  • the usage cost feature parameter calculation unit 312 is configured to calculate a usage cost feature parameter of the external data table by using the processing cost feature parameter;
  • the usage cost data calculation unit 313 is configured to calculate usage cost data of the external data table by using the usage cost feature parameter.
  • the usage cost feature parameter includes a second calculation cost parameter
  • the processing cost feature parameter extraction unit 311 may specifically include the following subunits:
  • a first calculating cost parameter advance subunit 311A configured to extract a first calculated cost parameter of the universal data table on which the external data table depends;
  • the usage cost feature parameter calculation unit 312 may specifically include the following subunits:
  • the second calculation cost parameter calculation sub-unit 312B is configured to correct the first calculation cost parameter by using the calculation cost calculation factor to obtain a second calculation cost parameter.
  • the usage cost feature parameter may further include a second storage cost parameter
  • the processing cost feature parameter extraction unit 311 may specifically include the following subunits:
  • a first storage cost parameter extraction subunit 311B configured to extract a first storage cost parameter of the universal data table on which the external data table depends;
  • the usage cost feature parameter calculation unit 312 may further include the following subunits:
  • a storage cost calculation factor acquisition sub-unit 312C configured to acquire a storage cost calculation factor between the external data table and the universal data table on which the external data table depends;
  • the second storage cost parameter calculation sub-unit 312D is configured to correct the first storage cost parameter by using the storage cost calculation factor to obtain a second storage cost parameter.
  • the usage cost feature parameter may further include a second scan cost parameter
  • the processing cost feature parameter extraction unit 311 may further include the following subunits:
  • the first scan cost parameter extraction subunit 311C is configured to extract a first scan cost parameter of the universal data table on which the external data table depends;
  • the usage cost feature parameter calculation unit 312 may further include the following subunits:
  • a scan cost calculation factor acquisition sub-unit 312E for acquiring a scan cost calculation factor between the external data table and the universal data table on which it depends;
  • the second scan cost parameter calculation sub-unit 312F is configured to correct the first scan cost parameter by using the storage cost calculation factor to obtain a second scan cost parameter.
  • calculation cost calculation factor acquisition subunit 312A may also To be further used for:
  • Scanm(j) is the number of data tables over which the universal data table j was scanned on the mth day;
  • the denominator is an example of the average number of sub-tables for the last 90 days of the general data table j.
  • the storage cost calculation factor acquisition sub-unit 312C may further be used to:
  • the storage cost calculation factor is calculated according to the scan amount of the common data table on which the external data table depends, and the k sheets having a dependency relationship with the common data table as follows:
  • scansize(i,j) is the scan amount of the external data table i to the general data table j;
  • m is a k-sheet having a dependency relationship with the general data table j, and is numbered 1...k.
  • the scan cost calculation factor acquisition subunit 312E may further be used to:
  • the scan cost calculation factor is calculated according to the proportion of the heat field in the universal data table according to the formula, and the level of the general data table in the current data common layer:
  • hot_ratio(j) is the ratio of the number of heat fields of the general data table j to the total number of fields in the table
  • Level(j) is the dependency hierarchy of the generic data table j in the data common layer.
  • the usage cost data of the external data table may be calculated by using the usage cost feature parameter by using the following formula:
  • Cost(i,j) compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
  • i is an external data table
  • j is a general data table, and there is a dependency relationship between the data table i and the data table j;
  • Cost(i,j) is the use cost data of the general data table j for the external data table i;
  • Compcost(j) is the first calculated cost parameter in the processing cost data of the general data table j;
  • Compfac(i,j) is a calculation cost calculation factor between the external data table i and the general data table j;
  • Storcost(j) is the first storage cost parameter in the processing cost data of the general data table j;
  • Storfac(i,j) is the storage cost calculation between external data table i and general data table j child;
  • Scancost(j) is the first scan cost parameter in the processing cost data of the general data table j;
  • Scanfac(i,j) is the scan cost calculation factor between the external data table i and the general data table j.
  • the device may further include the following modules:
  • the first extraction module 304 is configured to: when the processing cost data meets the first preset condition, extract a corresponding general data table;
  • the first extraction module 304 may specifically include the following submodules:
  • the first extraction sub-module 3041 is configured to extract the universal data table when a ratio of a first storage cost parameter of a common data table to a first calculated cost parameter is higher than a first preset threshold;
  • a second extraction sub-module 3042 configured to extract the universal data table when a first calculated cost parameter of a common data table is higher than a second preset threshold
  • the third extraction sub-module 3043 is configured to extract the universal data table when a ratio of the first scan cost parameter of the common data table to the first calculated cost parameter is higher than a third preset threshold;
  • the fourth statistic sub-module 3044 is configured to calculate a sum of second calculated cost parameters of the external data table directly dependent on the existence of a common data table;
  • a fourth extraction sub-module 3045 configured to extract the universal data table when a first calculated cost parameter of the universal data table is greater than a sum of the second calculated cost parameters
  • a fifth statistic sub-module 3046 configured to calculate a sum of second storage cost parameters of the external data table directly dependent on the existence of a common data table
  • a fifth extraction submodule 3047 configured to extract the universal data table when a first storage cost parameter of the universal data table is greater than a sum of the second storage cost parameters
  • a sixth statistic sub-module 3048 configured to calculate a sum of second scan cost parameters of the external data table directly dependent on the existence of a common data table
  • the sixth extraction sub-module 3049 is configured to extract the universal data table when the first scan cost parameter of the universal data table is greater than the sum of the second scan cost parameters.
  • the device may further include the following modules:
  • the second extraction module 305 is configured to extract a corresponding external data table when the usage cost data meets the second preset condition.
  • the second extraction module 305 may specifically include the following submodules:
  • the seventh extraction sub-module 3051 is configured to extract the external data table when a ratio of the second storage cost parameter of the external data table to the second calculated cost parameter is higher than a fourth preset threshold;
  • the eighth extraction sub-module 3052 is configured to obtain the same data from the other universal data table as the current common data table in an external data table, and the second scan cost parameter when acquiring data through other common data tables is smaller than the current When the general data table obtains the second scan cost parameter at the time of data, the external data table is extracted.
  • the description is It is relatively simple, and the relevant parts can be referred to the description of the method embodiment.
  • embodiments of the embodiments of the present application can be provided as a method, apparatus, or computer program product. Therefore, the embodiments of the present application may take the form of an entirely hardware embodiment, an entirely software embodiment, or an embodiment combining software and hardware. Moreover, embodiments of the present application can take the form of a computer program product embodied on one or more computer-usable storage media (including but not limited to disk storage, CD-ROM, optical storage, etc.) including computer usable program code.
  • computer-usable storage media including but not limited to disk storage, CD-ROM, optical storage, etc.
  • the computer device includes one or more processors (CPUs), input/output interfaces, network interfaces, and memory.
  • the memory may include non-persistent memory, random access memory (RAM), and/or non-volatile memory in a computer readable medium, such as read only memory (ROM) or flash memory.
  • RAM random access memory
  • ROM read only memory
  • Memory is an example of a computer readable medium.
  • Computer readable media includes both permanent and non-persistent, removable and non-removable media.
  • Information storage can be implemented by any method or technology. The information can be computer readable instructions, data structures, modules of programs, or other data.
  • Examples of computer storage media include, but are not limited to, phase change memory (PRAM), static random access memory (SRAM), dynamic random access memory (DRAM), other types of random access memory (RAM), read only memory. (ROM), electrically erasable programmable read only memory (EEPROM), flash memory or other memory technology, compact disk read only memory (CD-ROM), digital versatile disk (DVD) or other optical storage, Magnetic tape cartridges, magnetic tape storage or other magnetic storage devices or any other non-transportable media can be used to store information that can be accessed by a computing device.
  • computer readable media does not include non-persistent computer readable media, such as modulated data signals and carrier waves.
  • Embodiments of the present application are described with reference to flowcharts and/or block diagrams of methods, terminal devices (systems), and computer program products according to embodiments of the present application. Should be understood by the computer
  • the program instructions implement a combination of the processes and/or blocks in the flowcharts and/or FIG.
  • These computer program instructions can be provided to a processor of a general purpose computer, special purpose computer, embedded processor or other programmable data processing terminal device to produce a machine such that instructions are executed by a processor of a computer or other programmable data processing terminal device
  • Means are provided for implementing the functions specified in one or more of the flow or in one or more blocks of the flow chart.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing terminal device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the instruction device implements the functions specified in one or more blocks of the flowchart or in a flow or block of the flowchart.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种数据表分析处理的方法和装置,所述数据表包括数据公共层的通用数据表,以及,非数据公共层的外部数据表,所述的方法包括:针对所述数据公共层的通用数据表计算加工成本数据(101);确定所述非数据公共层的外部数据表所依赖的通用数据表(102);依据所述通用数据表的加工成本数据,计算所述外部数据表的使用成本数据(103),使得在对数据公共层的每一张通用数据表的成本进行评估时,不再是孤立地考虑当前数据表的自身存储、计算消耗,而会综合考虑所述数据表的若干张上游数据表以及兄弟数据表,从而能够合理、准确的评估通用数据表的加工成本,以此反映出数据公共层的数据模型建设的优劣,为数据公共层模型优化与运营提供决策支持。

Description

一种数据表分析处理的方法和装置 技术领域
本申请涉及大数据处理技术领域,特别是涉及一种数据表分析处理的方法和一种数据表分析处理的装置。
背景技术
大数据时代的来临,凸显了海量数据存储、计算、加工的需求,数据间的关联与服务显得尤为重要。这些海量的数据一般以结构化或者半结构化的形式保存在云计算集群中,比如:Hadoop,ODPS等。海量数据之间的关系通过存储在云计算集群中的一张张数据表来组织和体现,并且在不同公司,以及同一家公司内部的不同业务部门之间形成互访、流转和交换,从而真正发挥大数据时代数据应有的价值。
在云计算环境下成千上万的数据表中,对于一些常用的数据,通用的数据,会进行统一加工和归纳,形成一些通用性强,复用性高,高度规范统一的数据表,组成数据公共层。一般而言,数据公共层的数据表是各个业务部门需要经常使用的数据。
众所周知,大数据时代数据的存储、计算、管理、维护都需要消耗较高的软硬件成本和人力成本,那么数据加工所带来的成本耗费如何计量,以及数据使用中所需要的成本消耗如何评估已成为数据在互访、流转、交换的过程中面临的重要且核心的问题。
已有技术中,对于数据表的加工成本仅仅通过数据加工过程中所消耗的计算性硬件资源(比如CPU的消耗、内存消耗)及存储性资源(存储介质的消耗)来计量,即只是孤立的分析当前一张数据表在加工过程中产生的存储消耗和计算消耗。对于数据表的使用成本也只是将被使用表的数据加工成本平均分摊给这张数据表的各个使用者,显然也不够公平及合理。这将必然导致已有技术中无论数据加工成本的计量还是数据使用成本计量都不够准确的问题,从而严重影响云计算环境中数据有效性的判断,导致数据成本过高,以及,过多不必要的资源耗费。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据表分析处理的方法和相应的一种数据表分析处理的装置。
为了解决上述问题,本申请公开了一种数据表分析处理的方法,所述数据表包括数据公共层的通用数据表,以及,非数据公共层的外部数据表,所述的方法包括:
针对所述数据公共层的通用数据表计算加工成本数据;
确定所述非数据公共层的外部数据表所依赖的通用数据表;
依据所述通用数据表的加工成本数据,计算所述外部数据表的使用成本数据。
可选地,所述针对所述数据公共层的通用数据表计算加工成本数据的步骤包括:
提取所述数据公共层的通用数据表的加工成本特征参数;
采用所述加工成本特征参数计算所述通用数据表的加工成本数据。
可选地,所述加工成本特征参数包括第一扫描成本参数,所述提取所述数据公共层的通用数据表的加工成本特征参数的子步骤进一步包括:
统计所述通用数据表所依赖的父表的数量;
获取所述通用数据表对所述父表的扫描量;
统计所述父表下所有子表的数量;
所述采用所述加工成本特征参数计算所述通用数据表的加工成本数据的子步骤进一步包括:
采用所述通用数据表所依赖的父表数量,所述通用数据表对所述父 表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数。
可选地,所述加工成本特征参数还包括第一计算成本参数,以及,第一存储成本参数,所述提取所述数据公共层的通用数据表的加工成本特征参数的子步骤进一步包括:
提取所述通用数据表的复杂度CU作为第一计算成本参数;
提取所述通用数据表的存储量作为第一存储成本参数。
可选地,通过如下公式采用所述通用数据表所依赖的父表数量,以及,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数:
Figure PCTCN2017070977-appb-000001
其中,Cost(j)为数据表j的加工成本数据,
数据表j为数据表i所依赖的m张父表,编号为1…m,
ScanSize(i,j)为通用数据表i对父表j的扫描量,
数据表m为父表j的所有子表,编号为1…n。
可选地,通过如下公式采用所述加工成本特征参数计算所述通用数据表的加工成本数据:
Figure PCTCN2017070977-appb-000002
其中,ComputeCost(i)为通用数据表i的第一计算成本参数;
StorageCost(i)为通用数据表i的第一存储成本参数;
ScanCost(i,j)为通用数据表i对父表j的第一扫描成本参数。
可选地,所述依据所述通用数据表的加工成本数据,计算所述外部 数据表的使用成本数据的步骤为,
依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据。
可选地,所述依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据步骤包括:
提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数;
采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数;
采用所述使用成本特征参数计算所述外部数据表的使用成本数据。
可选地,所述使用成本特征参数包括第二计算成本参数;
所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤为:
提取所述外部数据表所依赖的通用数据表的第一计算成本参数;
所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤包括:
获取所述外部数据表与其所依赖的通用数据表之间的计算成本计算因子;
采用所述计算成本计算因子校正所述第一计算成本参数,获得第二计算成本参数。
可选地,所述使用成本特征参数包括第二存储成本参数;
所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤为:
提取所述外部数据表所依赖的通用数据表的第一存储成本参数;
所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤还包括:
获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子;
采用所述存储成本计算因子校正所述第一存储成本参数,获得第二存储成本参数。
可选地,所述使用成本特征参数包括第二扫描成本参数;
所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤为:
提取所述外部数据表所依赖的通用数据表的第一扫描成本参数;
所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤还包括:
获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子;
采用所述存储成本计算因子校正所述第一扫描成本参数,获得第二扫描成本参数。
可选地,获取所述外部数据表与其所依赖的通用数据表之间的计算成本计算因子的子步骤进一步包括:
获取最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数;
采用如下公式依据所述最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数,计算出成本计算因子:
Figure PCTCN2017070977-appb-000003
其中,m为最近m天中的每一天;
scanm(j)为第m天对通用数据表j进行过扫描的数据表数目;
分母为通用数据表j最近90天的平均子表数的示例。
可选地,获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子的子步骤进一步包括:
获取所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表;
采用如下公式依据所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表,计算出存储成本计算因子:
Figure PCTCN2017070977-appb-000004
其中,scansize(i,j)为外部数据表i对通用数据表j的扫描量;
m为与通用数据表j存在依赖关系的k张表,为编号1…k。
可选地,获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子的子步骤进一步包括:
获取所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的依赖层级,所述热度字段为在某一时间段内被使用的次数大于所述通用数据表的直接下游数据表数量的字段;
采用如下公式依据所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的层级,计算出扫描成本计算因子:
Figure PCTCN2017070977-appb-000005
其中,hot_ratio(j)为通用数据表j的热度字段的数量占表中总字段数量的比例;
level(j)为通用数据表j在数据公共层中的依赖层级。
可选地,通过如下公式采用所述使用成本特征参数计算所述外部数据表的使用成本数据:
cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
其中,i为外部数据表,j为通用数据表,数据表i与数据表j之间存在依赖关系;
cost(i,j)为外部数据表i使用通用数据表j的使用成本数据;
compcost(j)为通用数据表j的加工成本数据中的第一计算成本参数;
compfac(i,j)为外部数据表i与通用数据表j之间的计算成本计算因子;
storcost(j)为通用数据表j的加工成本数据中第一存储成本参数;
storfac(i,j)为外部数据表i与通用数据表j之间的存储成本计算因子;
scancost(j)为通用数据表j加工成本数据中的第一扫描成本参数;
scanfac(i,j)为外部数据表i与通用数据表j之间的扫描成本计算因子。
可选地,所述的方法还包括:
当所述加工成本数据满足第一预设条件时,提取对应的通用数据表。
可选地,所述当所述加工成本数据满足第一预设条件时,提取对应的通用数据表的步骤包括:
若某张通用数据表的第一存储成本参数与第一计算成本参数的比值高于第一预设阈值,则提取出所述通用数据表;
和/或,
若某张通用数据表的第一计算成本参数高于第二预设阈值,则提取出所述通用数据表;
和/或,
若某张通用数据表的第一扫描成本参数与第一计算成本参数的比值高于第三预设阈值,则提取出所述通用数据表;
和/或,
统计与某张通用数据表的存在直接依赖关系的外部数据表的第二计算成本参数之和;
若所述通用数据表的第一计算成本参数大于所述第二计算成本参数之和,则提取出所述通用数据表;
和/或,
统计与某张通用数据表的存在直接依赖关系的外部数据表的第二存储成本参数之和;
若所述通用数据表的第一存储成本参数大于所述第二存储成本参数之和,则提取出所述通用数据表;
和/或,
统计与某张通用数据表的存在直接依赖关系的外部数据表的第二扫描成本参数之和;
若所述通用数据表的第一扫描成本参数大于所述第二扫描成本参 数之和,则提取出所述通用数据表。
可选地,所述的方法还包括:
当所述使用成本数据满足第二预设条件时,提取对应的外部数据表。
可选地,所述当所述加工成本数据满足第二预设条件时,提取对应的外部数据表的步骤包括:
若某张外部数据表的第二存储成本参数与第二计算成本参数的比值高于第四预设阈值,则提取出所述外部数据表;
和/或,
若某张外部数据表能够从其他通用数据表获得与当前通用数据表相同的数据,且在通过其他通用数据表获取数据时的第二扫描成本参数小于从当前通用数据表获取数据时的第二扫描成本参数,则提取出所述外部数据表。
为了解决上述问题,本申请还公开了一种数据表分析处理的装置,其特征在于,所述数据表包括数据公共层的通用数据表,以及,非数据公共层的外部数据表,所述的装置包括:
加工成本计算模块,用于针对所述数据公共层的通用数据表计算加工成本数据;
确定模块,用于确定所述非数据公共层的外部数据表所依赖的通用数据表;
使用成本计算模块,用于依据所述通用数据表的加工成本数据,计算所述外部数据表的使用成本数据。
可选地,所述加工成本计算模块包括:
加工成本特征参数提取子模块,用于提取所述数据公共层的通用数 据表的加工成本特征参数;
加工成本计算子模块,用于采用所述加工成本特征参数计算所述通用数据表的加工成本数据。
可选地,所述加工成本特征参数包括第一扫描成本参数,所述加工成本特征参数提取子模块进一步包括:
父表数量统计单元,用于统计所述通用数据表所依赖的父表的数量;
扫描量获取单元,用于获取所述通用数据表对所述父表的扫描量;
子表数量统计单元,用于统计所述父表下所有子表的数量;
所述加工成本计算子模块进一步包括:
第一扫描成本计算单元,用于采用所述通用数据表所依赖的父表数量,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数。
可选地,所述加工成本特征参数还包括第一计算成本参数,以及,第一存储成本参数,所述加工成本特征参数提取子模块进一步包括:
第一计算成本参数提取单元,用于提取所述通用数据表的复杂度CU作为第一计算成本参数;
第一存储成本参数提取单元,用于提取所述通用数据表的存储量作为第一存储成本参数。
可选地,通过如下公式采用所述通用数据表所依赖的父表数量,以及,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数:
Figure PCTCN2017070977-appb-000006
其中,Cost(j)为数据表j的加工成本数据,
数据表j为数据表i所依赖的m张父表,编号为1…m,
ScanSize(i,j)为通用数据表i对父表j的扫描量,
数据表m为父表j的所有子表,编号为1…n。
可选地,通过如下公式采用所述加工成本特征参数计算所述通用数据表的加工成本数据:
Figure PCTCN2017070977-appb-000007
其中,ComputeCost(i)为通用数据表i的第一计算成本参数;
StorageCost(i)为通用数据表i的第一存储成本参数;
ScanCost(i,j)为通用数据表i对父表j的第一扫描成本参数。
可选地,所述使用成本计算模块包括:
使用成本计算子模块,用于依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据。
可选地,所述使用成本计算子模块包括:
加工成本特征参数提取单元,用于提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数;
使用成本特征参数计算单元,用于采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数;
使用成本数据计算单元,用于采用所述使用成本特征参数计算所述外部数据表的使用成本数据。
可选地,所述使用成本特征参数包括第二计算成本参数;
所述加工成本特征参数提取单元包括:
第一计算成本参数提前子单元,用于提取所述外部数据表所依赖的通用数据表的第一计算成本参数;
所述使用成本特征参数计算单元包括:
计算成本计算因子获取子单元,用于获取所述外部数据表与其所依赖的通用数据表之间的计算成本计算因子;
第二计算成本参数计算子单元,用于采用所述计算成本计算因子校正所述第一计算成本参数,获得第二计算成本参数。
可选地,所述使用成本特征参数包括第二存储成本参数;
所述加工成本特征参数提取单元包括:
第一存储成本参数提取子单元,用于提取所述外部数据表所依赖的通用数据表的第一存储成本参数;
所述使用成本特征参数计算单元还包括:
存储成本计算因子获取子单元,用于获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子;
第二存储成本参数计算子单元,用于采用所述存储成本计算因子校正所述第一存储成本参数,获得第二存储成本参数。
可选地,所述使用成本特征参数包括第二扫描成本参数;
所述加工成本特征参数提取单元包括:
第一扫描成本参数提取子单元,用于提取所述外部数据表所依赖的通用数据表的第一扫描成本参数;
所述使用成本特征参数计算单元还包括:
扫描成本计算因子获取子单元,用于获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子;
第二扫描成本参数计算子单元,用于采用所述存储成本计算因子校 正所述第一扫描成本参数,获得第二扫描成本参数。
可选地,所述计算成本计算因子获取子单元进一步用于:
获取最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数;
采用如下公式依据所述最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数,计算出成本计算因子:
Figure PCTCN2017070977-appb-000008
其中,m为最近m天中的每一天;
scanm(j)为第m天对通用数据表j进行过扫描的数据表数目;
分母为通用数据表j最近90天的平均子表数的示例。
可选地,所述存储成本计算因子获取子单元进一步用于:
获取所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表;
采用如下公式依据所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表,计算出存储成本计算因子:
Figure PCTCN2017070977-appb-000009
其中,scansize(i,j)为外部数据表i对通用数据表j的扫描量;
m为与通用数据表j存在依赖关系的k张表,为编号1…k。
可选地,所述扫描成本计算因子获取子单元进一步用于:
获取所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的依赖层级,所述热度字段为在某一时间段内被使用的次数大于所述通用数据表的直接下游数据表数量的字段;
采用如下公式依据所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的层级,计算出扫描成本计算因子:
Figure PCTCN2017070977-appb-000010
其中,hot_ratio(j)为通用数据表j的热度字段的数量占表中总字段数量的比例;
level(j)为通用数据表j在数据公共层中的依赖层级。
可选地,通过如下公式采用所述使用成本特征参数计算所述外部数据表的使用成本数据:
cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
其中,i为外部数据表,j为通用数据表,数据表i与数据表j之间存在依赖关系;
cost(i,j)为外部数据表i使用通用数据表j的使用成本数据;
compcost(j)为通用数据表j的加工成本数据中的第一计算成本参数;
compfac(i,j)为外部数据表i与通用数据表j之间的计算成本计算因子;
storcost(j)为通用数据表j的加工成本数据中第一存储成本参数;
storfac(i,j)为外部数据表i与通用数据表j之间的存储成本计算因子;
scancost(j)为通用数据表j加工成本数据中的第一扫描成本参数;
scanfac(i,j)为外部数据表i与通用数据表j之间的扫描成本计算因子。
可选地,所述的装置还包括:
第一提取模块,用于在所述加工成本数据满足第一预设条件时,提取对应的通用数据表。
可选地,所述第一提取模块包括:
第一提取子模块,用于在某张通用数据表的第一存储成本参数与第一计算成本参数的比值高于第一预设阈值时,提取出所述通用数据表;
和/或,
第二提取子模块,用于在某张通用数据表的第一计算成本参数高于第二预设阈值时,提取出所述通用数据表;
和/或,
第三提取子模块,用于在某张通用数据表的第一扫描成本参数与第一计算成本参数的比值高于第三预设阈值时,提取出所述通用数据表;
和/或,
第四统计子模块,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二计算成本参数之和;
第四提取子模块,用于在所述通用数据表的第一计算成本参数大于所述第二计算成本参数之和时,提取出所述通用数据表;
和/或,
第五统计子模块,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二存储成本参数之和;
第五提取子模块,用于在所述通用数据表的第一存储成本参数大于所述第二存储成本参数之和时,提取出所述通用数据表;
和/或,
第六统计子模块,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二扫描成本参数之和;
第六提取子模块,用于在所述通用数据表的第一扫描成本参数大于所述第二扫描成本参数之和时,提取出所述通用数据表。
可选地,所述的装置还包括:
第二提取模块,用于在所述使用成本数据满足第二预设条件时,提取对应的外部数据表。
可选地,所述第二提取模块包括:
第七提取子模块,用于在某张外部数据表的第二存储成本参数与第二计算成本参数的比值高于第四预设阈值时,提取出所述外部数据表;
和/或,
第八提取子模块,用于在某张外部数据表能够从其他通用数据表获得与当前通用数据表相同的数据,且在通过其他通用数据表获取数据时的第二扫描成本参数小于从当前通用数据表获取数据时的第二扫描成本参数时,提取出所述外部数据表。
与背景技术相比,本申请实施例包括以下优点:
第一,在本申请实施例中,通过考虑不同数据表之间的依赖关系,引入了扫描成本参数,优化了数据表的成本评估方式,使得在对数据公共层的每一张通用数据表的成本进行评估时,不再是孤立地考虑当前数据表的自身存储、计算消耗,而会综合考虑所述数据表的若干张上游数据表以及兄弟数据表,从而能够合理、准确的评估通用数据表的加工成本,以此反映出数据公共层的数据模型建设的优劣,为数据公共层模型优化与运营提供决策支持。
第二,在本申请实施例中,对于外部数据表的使用成本计量,可以清楚的评估出其他外部数据表访问数据公共层的通用数据表所带来的存储、计算、扫描三部分的消耗,便于评估外部数据表访问数据公共层通用数据表的合理性和必要性,从而辅助业务部门对自身数据表建设的优化,避免数据重复建设造成的资源浪费,提升数据资源利用率、降低数据成本,从而达到从整体上节约成本的目的。
第三,在本申请实施例中,还通过引入计算因子,使得上游数据表的成本消耗可以按照合理的比例被下游数据表继承下来,同时,通过综合考虑存储量、扫描量、数据表的复用程度、数据表的加工层次以及数据表的热度字段比例等因素,使得对外部数据表的使用成本计算更合理、更准确。
第四,本申请请实施例通过对通用数据表的加工成本数据,以及外部数据表的使用成本数据进行分析,将其与预设阈值进行比较,从而能够具体地识别出成本消耗过高的数据表,有助于对所述数据表进行优化,以进一步达到节约成本的目的。
附图说明
图1是本申请的一种数据表分析处理的方法实施例一的步骤流程图;
图2是本申请的一种数据公共层的通用数据表模型示意图;
图3是本申请的一种通用数据表与外部数据表关系示意图;
图4是本申请的一种数据表分析处理的方法实施例二的步骤流程图;
图5是本申请的又一种通用数据表与外部数据表关系示意图;
图6是本申请的一种数据表分析处理的装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合 附图和具体实施方式对本申请作进一步详细的说明。
已有技术中,对于数据表的加工成本仅仅通过数据加工过程中所消耗的计算性硬件资源(比如CPU的消耗、内存消耗)及存储性资源(存储介质的消耗)来计量。然而,一张数据表的产生,其中的数据可能来自于上游的N张数据表,也就是一张数据表的产生需要依赖上游N张数据表。而已有的成本计量模型只是孤立的分析当前一张数据表在加工过程中产生的存储消耗和计算消耗,并没有考虑到数据表之间的依赖关系,因此忽略了数据表之间的扫描消耗。
已有技术对于数据表的使用成本也只是将被使用表的数据加工成本平均分摊给这张数据表的各个使用者,而没有根据各个使用者的具体访问情况不同,采取不同分摊方式。由于不同的使用者对同一张数据表的使用情况各不相同,有的使用者访问的数据量比较大,计算也比较复杂,有的使用者只读取了少量的数据,计算很简单。如果采用均摊的方式,那么这两个使用者所承担的扫描成本是相同的,但是这显然是不公平、不合理的。
针对上述问题,本申请创造性地提出用于进行数据表分析处理的两种计量模型,分别为数据公共层的数据加工成本的计量模型,以及,外部数据对象BU访问数据公共层数据的数据使用成本计量模型。
为使本领域技术人员更好地理解本申请,以下简单对本申请实施例所涉及的两种计量模型的核心构思简要说明:
一、数据公共层数据加工成本的计量模型:包括计算成本评估、存储成本评估及扫描成本评估三个部分。计算成本评估以及存储成本评估是从所述通用数据表自身的角度,反映出这张数据表在数据加工过程中实际的软硬件消耗。而扫描成本,是因为考虑到数据加工过程中数据表的依赖关系,扫描成本的计算根据子表对父表的扫描量占父表总体被扫描量的比例来分摊父表成本,作为子表对父表的扫描成本。
二、外部数据对象BU访问数据公共层数据的数据使用成本计量模型:按照数据加工成本消耗的计量方式,可以得到被使用数据表的三部分成本,即计算成本、存储成本、扫描成本。对于这张数据表的使用成本,可以将这三部分成本按相应比例分摊后加权求和的方式来计算。三部分成本的分摊比例算法可以各不相同。
将上述两种计量模型应用到实际的数据分析处理中,至少可以解决如下技术问题:
1)获得一张数据公共层数据表存储成本、计算成本、扫描成本三方面的比例;
2)当存储成本高于某个阈值时,可以降低存储量;
3)当计算成本高于某个阈值时,可以优化这张数据表的计算逻辑,减少计算量;
4)当扫描成本高于某个阈值时,可以优化这张数据表的加工链路,减少无用的对父表的扫描数据量;
5)控制数据使用方,只从公共层读取必要的数据量,减少无用数据的扫描;
6)控制数据使用方,尽量使用层级较深的表(层级较深的表都是经过公共层深度加工的表,是精品表)。
一般而言,对于数据公共层的每一张数据表的数据加工成本要小于该表的直接下游的数据使用成本之和,这张数据表才符合数据公共层的要求,才有存在于数据公共层的价值。
参照图1,示出了本申请的一种数据表分析处理的方法实施例一的步骤流程图,其中,所述数据表可以包括数据公共层的通用数据表,以及,非数据公共层的外部数据表,所述的方法具体可以包括如下步骤:
步骤101,针对所述数据公共层的通用数据表计算加工成本数据;
在本申请实施例中,通用数据表的加工成本数据不仅可以包括在对数据表进行数据加工过程中所消耗的计算性硬件资源(比如CPU的消耗、内存消耗)及存储性资源(存储介质的消耗),还可以包括数据表之间的依赖关系,即数据表之间的扫描消耗。
一张数据表的产生,其中的数据可能来自于上游的N张数据表,因此,数据表之间的扫描消耗体现的是在对数据表进行加工的过程中,可能会使用到的对所依赖的数据表的扫描量。参照图2,示出了一种数据公共层的通用数据表模型示意图,每一个圆圈A,B,C,D,E,F分别表示数据公共层的6张通用数据表,图中两个圆圈之间的箭头表示两张通用数据表之间存在的数据互访关系,也就是扫描关系。例如,通用数据表B与通用数据表A之间的箭头表示通用数据表B需要扫描通用数据表A,箭头上的数字代表扫描量的大小,单位为TB,因此图2中通用数据表B需要扫描通用数据表A的数据为2TB。
在本申请的一种优选实施例中,所述针对所述数据公共层的通用数据表计算加工成本数据具体可以包括如下子步骤:
子步骤1011,提取所述数据公共层的通用数据表的加工成本特征参数;
子步骤1012,采用所述加工成本特征参数计算所述通用数据表的加工成本数据。
在本申请的一种实施例中,所述加工成本特征参数可以包括第一计算成本参数,以及,第一存储成本参数,所述提取所述数据公共层的通用数据表的加工成本特征参数的子步骤可以进一步包括:
提取所述通用数据表的复杂度CU作为第一计算成本参数;
提取所述通用数据表的存储量作为第一存储成本参数。
在本申请实施例中,第一计算成本参数可以是所述通用数据表在进行数据加工的过程中需要耗费的CPU资源,可以以复杂度CU计算,1CU代表1个CPU(core)运行一天所需要的成本消耗。复杂度CU可 以从开放数据处理服务ODPS(Open Data Processing Service,简称ODPS)集群元数据中获取。ODPS是一种大规模分布式数据处理服务,可以支持对海量数据进行处理。
第一存储成本参数可以是在对所述通用数据表进行存储时所需要耗费的硬盘存储资源,可以以存储量TU计算,1TU代表1TB数据存储一天所需要的成本消耗。存储量TU也可以从ODPS集群元数据中获取。
在本申请实施例中,为了将以CU为单位的复杂度和以TU为单位的存储量进行统一、综合计量,可以引入新的资源消耗计量单位,即资源单元,记为CT。其中,资源单元与复杂度CU之间的换算关系为:1CT=4CU;资源单元与存储量TU之间的换算关系为:1CT=9TU。
例如,若加工一张通用数据表消耗的复杂度为1CU,消耗的存储量为2TU,则所述通用数据表在加工过程中消耗的资源为1/4+2/9=0.47CT。
在本申请的另一种实施例中,所述加工成本特征参数还可以包括第一扫描成本参数,所述提取所述数据公共层的通用数据表的加工成本特征参数的子步骤可以进一步包括:
统计所述通用数据表所依赖的父表的数量;
获取所述通用数据表对所述父表的扫描量;
统计所述父表下所有子表的数量;
所述采用所述加工成本特征参数计算所述通用数据表的加工成本数据的子步骤可以进一步包括:
采用所述通用数据表所依赖的父表数量,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数。
例如,参照图2所示,通用数据表C与通用数据表A之间的箭头代表通用数据表C需要扫描通用数据表A,即,通用数据表A是通用 数据表C的父表,箭头上的数字代表子表C对父表A的扫描量的大小为1TB,父表A下的子表数量共3个,即,通用数据表B、通用数据表C和通用数据表D。采用上述数据,从而可以计算出第一扫描成本参数。
在具体实现中,可以通过如下公式计算出第一扫描成本参数:
Figure PCTCN2017070977-appb-000011
其中,Cost(j)为数据表j的加工成本数据,
数据表j为数据表i所依赖的m张父表,编号为1…m,
ScanSize(i,j)为通用数据表i对父表j的扫描量,
数据表m为父表j的所有子表,编号为1…n。
在本申请的一种优选实施例中,可以采用第一计算成本参数,第一存储成本参数,以及,第一扫描成本参数计算所述通用数据表的加工成本数据。
在具体实现中,可以通过如下公式计算所述通用数据表的加工成本数据:
Figure PCTCN2017070977-appb-000012
其中,ComputeCost(i)为通用数据表i的第一计算成本参数;
StorageCost(i)为通用数据表i的第一存储成本参数;
ScanCost(i,j)为通用数据表i对父表j的第一扫描成本参数。
因此,图2中各通用数据表的加工成本数据可以计算如下:
通用数据表A:2/9+1/4+0=0.472CT
通用数据表B:1/9+2/4+0.472*(2/(2+1+1))=0.845CT
通用数据表C:2/9+2/4/0.472*(1/(2+1+1))=0.840CT
通用数据表D:1/9+1/4+0.472*(1/(2+1+1))=0.479CT
通用数据表E:0.5/9+3/4+0.854*2/2+0.840*(1/(1+5))=1.800CT
通用数据表F:1/9+3/4+0.840*(5/(1+5))=1.561CT
以上示例仅为帮助对本申请实施例的理解,不应理解为是对本申请的限定。本领域技术人员可以根据数据公共层中各通用数据表之间的实际依赖关系,采用本申请实施例中描述的方法及公式,获得相应的加工成本数据。
步骤102,确定所述非数据公共层的外部数据表所依赖的通用数据表;
在本申请实施例中,对于非数据公共层的外部数据表,可以首先确定出所述外部数据表所依赖的通用数据表。参照图3,示出了一种通用数据表与外部数据表关系示意图,图3中表A,表B,表C分别表示数据公共层的通用数据表,表D则表示非数据公共层的一张外部数据表。外部数据表D可以访问通用数据表B和通用数据表C。每一通用数据表中圆圈内的4个数字分别代表所述通用数据表的第一计算成本参数,第一存储成本参数,第一扫描成本参数,以及总的数据存储量。
例如,参照图3,通用数据表A的第一计算成本参数为1CT,第一存储成本参数为2CT,第一扫描成本参数为2CT,通用数据表A的数据存储量为10TB。外部数据表D与通用数据表B箭头上的数字表示外部数据表D扫描通用数据表B的数据量为2TB。
以上示例仅为通用数据表与外部数据表关系的一种示例,不应理解为是对本申请的限定,本领域技术人员可以根据实际情况,采用本申请实施例中描述的方法,确定出外部数据表与通用数据表之间的实际依赖关系以及数据扫描情况。
步骤103,依据所述通用数据表的加工成本数据,计算所述外部数 据表的使用成本数据;
在本申请实施例中,由于外部数据表存在与通用数据表之间的依赖关系,因此,可以依据所述通用数据表的加工成本数据,计算所述外部数据表的使用成本数据。具体地,可以依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据。
在本申请的一种优选实施例中,所述依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据的步骤具体可以包括:
提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数;
采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数;
采用所述使用成本特征参数计算所述外部数据表的使用成本数据。
在具体实现中,当确定出所述非数据公共层的外部数据表所依赖的通用数据表后,可以提取出所述通用数据表的加工特征参数,从而根据所述外部数据表与所述通用数据表之间的依赖关系,计算出所述外部数据表的使用成本特征参数,进而获得所述外部数据表的使用成本数据。
进一步地,所述使用成本特征参数可以包括第二计算成本参数,第二存储成本参数,以及,第二扫描成本参数。
第二计算成本参数可以是所述外部数据表在使用数据公共层的通用数据表的过程中所需要耗费的CPU资源,同样可以以复杂度CU计算;第二存储成本参数可以是对通用数据表进行存储所需要耗费的硬盘存储资源,可以以存储量TU计算;第二扫描成本参数则可以体现外部数据表与数据公共层的通用数据表之间的扫描关系。
在本申请的一种优选实施例中,所述方法还可以进一步包括步骤104和步骤105。
步骤104,当所述加工成本数据满足第一预设条件时,提取对应的通用数据表;
步骤105,当所述使用成本数据满足第二预设条件时,提取对应的外部数据表。
在具体实现中,当获得所述通用数据表的加工成本数据,以及,外部数据表的使用成本数据后,可以将所述加工成本数据和所述使用成本数据分别与第一预设条件和第二预设条件进行比较,以确定是否满足相应的预设条件,若是,则可以提取对应的通用数据表,或,外部数据表。
例如,对于数据公共层的通用数据表,在分别获得第一计算成本参数、第一存储成本参数和第一扫描成本参数后,可以分别判断第一计算成本参数、第一存储成本参数和第一扫描成本参数是否满足预设的条件。若第一存储成本参数过高,则可以考虑针对所述通用数据表降低存储量;若第一计算成本参数较高,则可以优化所述通用数据表的计算逻辑,减少计算复杂度;若第一扫描成本参数较高,则可以对所述通用数据表的加工链路进行优化,以减少无用的对父表的扫描数据量。
而对于非数据公共层的外部数据表,则可以根据获得的使用成本数据敦促数据使用方,只从数据公共层读取必须的数据量,减少无用数据的扫描,以及,尽量使用层级较深的通用数据表,因为层级较深的通用数据表都是经过数据公共层深度加工的表,是精品表。
在本申请实施例中,通过考虑不同数据表之间的依赖关系,引入了扫描成本参数,优化了数据表的成本评估方式,使得在对数据公共层的每一张通用数据表的成本进行评估时,不再是孤立地考虑当前数据表的自身存储、计算消耗,而会综合考虑所述数据表的若干张上游数据表以及兄弟数据表,从而能够合理、准确的评估通用数据表的加工成本,以此反映出数据公共层的数据模型建设的优劣,为数据公共层模型优化与运营提供决策支持。
其次,在本申请实施例中,对于外部数据表的使用成本计量,可以清楚的评估出其他外部数据表访问数据公共层的通用数据表所带来的 存储、计算、扫描三部分的消耗,便于评估外部数据表访问数据公共层通用数据表的合理性和必要性,从而辅助业务部门对自身数据表建设的优化,避免数据重复建设造成的资源浪费,提升数据资源利用率、降低数据成本,从而达到从整体上节约成本的目的。
参照图4,示出了本申请的一种数据表分析处理的方法实施例二的步骤流程图,其中,所述数据表可以包括数据公共层的通用数据表,以及,非数据公共层的外部数据表,所述的方法具体可以包括如下步骤:
步骤201,提取所述数据公共层的通用数据表的加工成本特征参数;
在本申请实施例中,所述通用数据表的加工成本特征参数可以包括第一计算成本参数,第一存储成本参数,以及,第一扫描成本参数。
第一计算成本参数可以是所述通用数据表在进行数据加工的过程中需要耗费的CPU资源,以复杂度CU计算;第一存储成本参数可以是在对所述通用数据表进行存储时所需要耗费的硬盘存储资源,以存储量TU计算;第一扫描成本参数则体现了所述通用数据表对所关联的通用数据表的扫描量情况,可以根据所述通用数据表所依赖的父表数量,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量计算得到。
在本申请实施例中,为了将以CU为单位的复杂度和以TU为单位的存储量进行统一、综合计量,可以引入新的资源消耗计量单位,即资源单元,记为CT。资源单元与复杂度CU、存储量TU之间的换算关系可以为:1CT=4CU,1CT=9TU。
步骤202,采用所述加工成本特征参数计算所述通用数据表的加工成本数据;
在具体实现中,可以通过如下公式计算所述通用数据表的加工成本数据:
Figure PCTCN2017070977-appb-000013
其中,ComputeCost(i)为通用数据表i的第一计算成本参数;
StorageCost(i)为通用数据表i的第一存储成本参数;
ScanCost(i,j)为通用数据表i对父表j的第一扫描成本参数。
步骤203,确定所述非数据公共层的外部数据表所依赖的通用数据表;
例如,参照图3所示,非数据公共层的外部数据表D所依赖的通用数据表包括通用数据表B和通用数据表C。
步骤204,提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数;
在本申请的一种实施例中,所述使用成本特征参数可以包括第二计算成本参数;因此,所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤可以为:提取所述外部数据表所依赖的通用数据表的第一计算成本参数。
在本申请的另一种实施例中,所述使用成本特征参数还可以包括第二存储成本参数;因此,所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤还可以为:提取所述外部数据表所依赖的通用数据表的第一存储成本参数。
在本申请的又一种实施例中,所述使用成本特征参数也可以包括第二扫描成本参数;因此,所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤可以为:提取所述外部数据表所依赖的通用数据表的第一扫描成本参数。
例如,参照图3所示,外部数据表所依赖的通用数据表为通用数据表B和通用数据表C,针对第二计算成本参数,可以分别提取通用数据表B和通用数据表C的第一计算成本参数,通用数据表B和通用数据 表C的第一计算成本参数均为1CT;针对第二存储成本参数,可以分别提取通用数据表B和通用数据表C的第二存储成本参数,通用数据表B的第二存储成本参数为1CT,通用数据表C的第二存储成本参数为4CT;针对第二扫描成本参数,可以分别提取通用数据表B和通用数据表C的第二扫描成本参数,通用数据表B的第二扫描成本参数为3CT,通用数据表C的第二扫描成本参数为2CT。
以上示例仅为帮助对本申请实施例的理解,不应认为是对本申请的限定,本领域技术人员可以根据实际情况,采用本申请实施例中所述的方法,获得相应的结果。
步骤205,采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数;
在本申请的一种实施例中,所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤可以包括;
获取所述外部数据表与其所依赖的通用数据表之间的计算成本计算因子;
采用所述计算成本计算因子校正所述第一计算成本参数,获得第二计算成本参数。
对于同一张通用数据表而言,可能会被多张不同的外部数据表所使用,不同的使用者对同一张通用数据表的使用情况各不相同,有的使用者访问的数据量比较大,计算也比较复杂,有的使用者只读取了少量的数据,计算很简单。如果采用均摊的方式,那么这两个使用者所承担的成本是相同的,但是这显然是不公平、不合理的。因此,在本申请实施例中,引入了计算成本计算因子,通过采用所述计算成本计算因子校正所述第一计算成本参数,从而获得第二计算成本参数。计算因子具体体现了所述外部使用表在使用通用数据表的过程中,子表对父表的使用情况占父表总体被使用情况的比例。
具体地,获取所述外部数据表与其所依赖的通用数据表之间的计算 成本计算因子的子步骤可以进一步包括:
获取最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数;
例如,可以采用如下公式,计算出成本计算因子,从而获得第二计算成本参数:
Figure PCTCN2017070977-appb-000014
其中,m为最近m天中的每一天;
scanm(j)为第m天对通用数据表j进行过扫描的数据表数目;
分母为通用数据表j最近90天的平均子表数的示例。
在本申请的另一种实施例中,所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤还可以包括;
获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子;
采用所述存储成本计算因子校正所述第一存储成本参数,获得第二存储成本参数。
与第二计算成本参数的计算类似,对于第二存储成本参数,也可以通过采用存储成本计算因子校正所述第一存储成本参数的方式,来获得第二存储成本参数。
具体地,获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子的子步骤可以进一步包括:
获取所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表;
可以采用如下公式,计算出存储成本计算因子,从而获得第二存储 成本参数:
Figure PCTCN2017070977-appb-000015
其中,scansize(i,j)为外部数据表i对通用数据表j的扫描量;
m为与通用数据表j存在依赖关系的k张表,为编号1…k。
在本申请的又一种实施例中,所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤还可以包括;
获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子;
采用所述存储成本计算因子校正所述第一扫描成本参数,获得第二扫描成本参数。
类似地,对于第二扫描成本参数的获得,也可以通过获取扫描成本计算因子,确定子表对父表的扫描量占父表总体被扫描量的比例,采用所述比例校正第一扫描成本参数,从而获得第二扫描成本参数。
具体地,获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子的子步骤可以进一步包括:
获取所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的依赖层级;
对于任一通用数据表而言,表中的任意一个字段a,如果所述字段a在某一时间段内被下游数据表使用的次数大于所述通用数据表的直接下游表数目,那么所述字段a就是所述通用数据表的热度字段。因此,对于任一通用数据表,表中的热度字段数占表中总字段数的比例即为热度字段所占的比例。通常,对于热度字段进行统计的时间段可以按一天来计算。
通用数据表的依赖层级体现的是所述通用数据表与当前数据公共 层中其他通用数据表之间的依赖关系。参照图3所示,数据公共层中共包括3张通用数据表,即通用数据表A、通用数据表B和通用数据表C。若通用数据表A的依赖层级为1,则通用数据表B和通用数据表C的依赖层级均为2。
在具体实现中,可以采用如下公式,计算出扫描成本计算因子,从而获得第二扫描成本参数:
Figure PCTCN2017070977-appb-000016
其中,hot_ratio(j)为通用数据表j的热度字段的数量占表中总字段数量的比例;
level(j)为通用数据表j在数据公共层中的依赖层级。
步骤206,采用所述使用成本特征参数计算所述外部数据表的使用成本数据;
在本申请实施例中,当分别获得所述外部数据表的第二计算成本参数、第二存储成本参数和第二扫描成本参数后,可以将所述第二计算成本参数、第二存储成本参数和第二扫描成本参数进行累加,从而得到所述外部数据表的使用成本数据。
在具体实现中,可以通过如下公式计算所述外部数据表的使用成本数据:
cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
其中,i为外部数据表,j为通用数据表,数据表i与数据表j之间存在依赖关系;
cost(i,j)为外部数据表i使用通用数据表j的使用成本数据;
compcost(j)为通用数据表j的加工成本数据中的第一计算成本参数;
compfac(i,j)为外部数据表i与通用数据表j之间的计算成本计算因子;
storcost(j)为通用数据表j的加工成本数据中第一存储成本参数;
storfac(i,j)为外部数据表i与通用数据表j之间的存储成本计算因子;
scancost(j)为通用数据表j加工成本数据中的第一扫描成本参数;
scanfac(i,j)为外部数据表i与通用数据表j之间的扫描成本计算因子。
步骤207,当所述加工成本数据满足第一预设条件时,提取对应的通用数据表;
步骤208,当所述使用成本数据满足第二预设条件时,提取对应的外部数据表。
在具体实现中,当分别获得所述通用数据表的加工成本数据,以及,外部数据表的使用成本数据后,可以根据所述加工成本数据和所述使用成本数据,对所述通用数据表和外部数据表进行分析,以确定是否需要对所述数据表进行优化处理。
在本申请的一种优选实施例中,所述当所述加工成本数据满足第一预设条件时,提取对应的通用数据表的步骤可以包括:
若某张通用数据表的第一存储成本参数与第一计算成本参数的比值高于第一预设阈值,则提取出所述通用数据表;
和/或,
若某张通用数据表的第一计算成本参数高于第二预设阈值,则提取出所述通用数据表;
和/或,
若某张通用数据表的第一扫描成本参数与第一计算成本参数的比 值高于第三预设阈值,则提取出所述通用数据表;
和/或,
统计与某张通用数据表的存在直接依赖关系的外部数据表的第二计算成本参数之和;
若所述通用数据表的第一计算成本参数大于所述第二计算成本参数之和,则提取出所述通用数据表;
和/或,
统计与某张通用数据表的存在直接依赖关系的外部数据表的第二存储成本参数之和;
若所述通用数据表的第一存储成本参数大于所述第二存储成本参数之和,则提取出所述通用数据表;
和/或,
统计与某张通用数据表的存在直接依赖关系的外部数据表的第二扫描成本参数之和;
若所述通用数据表的第一扫描成本参数大于所述第二扫描成本参数之和,则提取出所述通用数据表。
例如,若通用数据表的第一存储成本参数与所述通用数据表的第一计算成本参数的比值大于1/4,可以认为所述通用数据表的存储成本偏高,则可以提取出所述通用数据表,考虑降低存储量。
若所述通用数据表的的第一计算成本参数超过30CU,也就是CPU运算超过了30min,则可以考虑优化所述通用数据表的计算逻辑,以减少计算量。
若所述通用数据表的第一扫描成本参数与第一计算成本参数的比值大于10,可以认为第一扫描成本参数较高,则可以考虑对所述通用数据表的加工链路进行优化,以减少无用的对父表的扫描数据量。
此外,若所述通用数据表的第一计算成本参数大于所述通用数据表的所有使用者的计算成本之和,或者,所述通用数据表的第一存储成本参数大于所述通用数据表的所有使用者的存储成本之和,或者,所述通用数据表的第一扫描成本参数大于所述通用数据表的所有使用者的扫描成本之和,则可以识别并提取出所述通用数据表,以作进一步处理。
以上示例仅为帮助对本申请实施例的理解,本领域技术人员可以根据实际情况,确定相应的预设阈值大小,本申请对此不作限定。
在本申请的另一种优选实施例中,所述当所述加工成本数据满足第二预设条件时,提取对应的外部数据表的步骤可以包括:
若某张外部数据表的第二存储成本参数与第二计算成本参数的比值高于第四预设阈值,则提取出所述外部数据表;
和/或,
若某张外部数据表能够从其他通用数据表获得与当前通用数据表相同的数据,且在通过其他通用数据表获取数据时的第二扫描成本参数小于从当前通用数据表获取数据时的第二扫描成本参数,则提取出所述外部数据表。
例如,若所述外部数据表的第二存储成本参数与第二计算成本参数的比值大于1/4,可以认为所述外部数据表的存储成本偏高,则可以提取出所述外部数据表,考虑降低存储量。
此外,若所述外部数据表所依赖的数据可以从其他通用数据表中获得,且当所述外部数据表对该通用数据表进行扫描时,所述第二扫描成本参数小于所述外部数据表对当前通用数据表进行扫描时的第二扫描成本参数,则可以考虑对所述外部数据表的依赖关系进行优化,以减少扫描成本。
以上示例仅为帮助对本申请实施例的理解,本领域技术人员可以根据实际情况,确定相应的预设阈值大小,本申请对此不作限定。
在本申请实施例中,通过引入计算因子,使得上游数据表的成本消耗可以按照合理的比例被下游数据表继承下来,同时,通过综合考虑存储量、扫描量、数据表的复用程度、数据表的加工层次以及数据表的热度字段比例等因素,使得对外部数据表的使用成本计算更合理、更准确。
其次,本申请请实施例通过对通用数据表的加工成本数据,以及外部数据表的使用成本数据进行分析,将其与预设阈值进行比较,从而能够具体地识别出成本消耗过高的数据表,有助于进一步对所述数据表进行优化,以达到节约成本的目的。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面以一个完整示例对本申请的优选实施例作一详细的说明。
若有6张数据表A、B、C、D、E和F,其相互之间的扫描关系如下表一所示:
表一:
Figure PCTCN2017070977-appb-000017
在表一中:数据公共层包括4张通用数据表,即通用数据表A、通用数据表B、通用数据表C和通用数据表D;非公共数据层的外部数据 表共2张,即外部数据表E和外部数据表F
其中,对于表一中的第一行数据,可以理解为:通用数据表B的存储量为10TB,通用数据表A的存储量为20TB,通用数据表B扫描了通用数据表A 1TB的数据。通用数据表A下共有三张子表。
对于表一中的第二行数据,可以理解为:通用数据表C的存储量为6TB,通用数据表B的存储量为10TB,通用数据表C扫描了通用数据表B 2TB的数据。通用数据表B下共有两张子表。
对于表一中的第四行数据,可以理解为:外部数据表E的存储量为12TB,通用数据表C的存储量为6TB,外部数据表E扫描了通用数据表C 2TB的数据。通用数据表C下共有四张子表。
根据上述扫描关系,可以构建出如图5所示的本申请的又一种通用数据表与外部数据表关系示意图。
按照如下所述的通用数据表加工成本数据计算公式
Figure PCTCN2017070977-appb-000018
可以得到如下表二的通用数据表加工成本数据:
表二:
Figure PCTCN2017070977-appb-000019
同时,按照如下所述的外部数据表使用成本数据计算公式
cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
可以得到如下表三的外部数据表使用成本数据:
表三:
Figure PCTCN2017070977-appb-000020
然后将上述通用数据表的加工成本数据,和外部数据表的使用成本数据与预设的条件进行比较,从而可以提取出如下表四的通用数据表和外部数据表:
表四:
Figure PCTCN2017070977-appb-000021
以上示例仅为帮助对本申请所述方法的理解,不应认为是对本申请的限定,本领域技术人员可以根据数据表之间的实际依赖关系,按照本申请所述的方法和公式,确定出通用数据表的加工成本数据,以及外部数据表的使用成本数据,从而根据所述加工成本数据和使用成本数据,识别出需要优化数据表。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不 受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图6,示出了本申请的一种数据表分析处理的装置实施例的结构框图,其中,所述数据表可以包括数据公共层的通用数据表,以及,非数据公共层的外部数据表,所述的装置具体可以包括如下模块:
加工成本计算模块301,用于针对所述数据公共层的通用数据表计算加工成本数据;
确定模块302,用于确定所述非数据公共层的外部数据表所依赖的通用数据表;
使用成本计算模块303,用于依据所述通用数据表的加工成本数据,计算所述外部数据表的使用成本数据。
在本申请实施例中,所述加工成本计算模块301具体可以包括如下子模块:
加工成本特征参数提取子模块3011,用于提取所述数据公共层的通用数据表的加工成本特征参数;
加工成本计算子模块3012,用于采用所述加工成本特征参数计算所述通用数据表的加工成本数据。
在本申请的一种实施例中,所述加工成本特征参数可以包括第一扫描成本参数,所述加工成本特征参数提取子模块3011可以进一步包括如下单元:
父表数量统计单元111A,用于统计所述通用数据表所依赖的父表的数量;
扫描量获取单元111B,用于获取所述通用数据表对所述父表的扫 描量;
子表数量统计单元111C,用于统计所述父表下所有子表的数量;
所述加工成本计算子模块3012可以进一步包括如下单元:
第一扫描成本计算单元121A,用于采用所述通用数据表所依赖的父表数量,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数。
在本申请的另一种实施例中,所述加工成本特征参数还可以包括第一计算成本参数,以及,第一存储成本参数,所述加工成本特征参数提取子模块3011还可以进一步包括如下单元:
第一计算成本参数提取单元112A,用于提取所述通用数据表的复杂度CU作为第一计算成本参数;
第一存储成本参数提取单元113A,用于提取所述通用数据表的存储量作为第一存储成本参数。
在本申请实施例中,可以通过如下公式采用所述通用数据表所依赖联的父表数量,以及,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数:
Figure PCTCN2017070977-appb-000022
其中,Cost(j)为数据表j的加工成本数据,
数据表j为数据表i所依赖的m张父表,编号为1…m,
ScanSize(i,j)为通用数据表i对父表j的扫描量,
数据表m为父表j的所有子表,编号为1…n。
在本申请实施例中,可以通过如下公式采用所述加工成本特征参数计算所述通用数据表的加工成本数据:
Figure PCTCN2017070977-appb-000023
其中,ComputeCost(i)为通用数据表i的第一计算成本参数;
StorageCost(i)为通用数据表i的第一存储成本参数;
ScanCost(i,j)为通用数据表i对父表j的第一扫描成本参数。
在本申请实施例中,所述使用成本计算模块303具体可以包括如下子模块:
使用成本计算子模块3031,用于依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据。
在本申请实施例中,所述使用成本计算子模块3031具体可以包括如下单元:
加工成本特征参数提取单元311,用于提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数;
使用成本特征参数计算单元312,用于采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数;
使用成本数据计算单元313,用于采用所述使用成本特征参数计算所述外部数据表的使用成本数据。
在本申请实施例中,所述使用成本特征参数包括第二计算成本参数;
所述加工成本特征参数提取单元311具体可以包括如下子单元:
第一计算成本参数提前子单元311A,用于提取所述外部数据表所依赖的通用数据表的第一计算成本参数;
所述使用成本特征参数计算单元312具体可以包括如下子单元:
计算成本计算因子获取子单元312A,用于获取所述外部数据表与 其所依赖的通用数据表之间的计算成本计算因子;
第二计算成本参数计算子单元312B,用于采用所述计算成本计算因子校正所述第一计算成本参数,获得第二计算成本参数。
在本申请实施例中,所述使用成本特征参数还可以包括第二存储成本参数;
所述加工成本特征参数提取单元311具体可以包括如下子单元:
第一存储成本参数提取子单元311B,用于提取所述外部数据表所依赖的通用数据表的第一存储成本参数;
所述使用成本特征参数计算单元312还可以包括如下子单元:
存储成本计算因子获取子单元312C,用于获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子;
第二存储成本参数计算子单元312D,用于采用所述存储成本计算因子校正所述第一存储成本参数,获得第二存储成本参数。
在本申请实施例中,所述使用成本特征参数还可以包括第二扫描成本参数;
所述加工成本特征参数提取单元311还可以包括如下子单元:
第一扫描成本参数提取子单元311C,用于提取所述外部数据表所依赖的通用数据表的第一扫描成本参数;
所述使用成本特征参数计算单元312还可以包括如下子单元:
扫描成本计算因子获取子单元312E,用于获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子;
第二扫描成本参数计算子单元312F,用于采用所述存储成本计算因子校正所述第一扫描成本参数,获得第二扫描成本参数。
在本申请实施例中,所述计算成本计算因子获取子单元312A还可 以进一步用于:
获取最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数;
采用如下公式依据所述最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数,计算出成本计算因子:
Figure PCTCN2017070977-appb-000024
其中,m为最近m天中的每一天;
scanm(j)为第m天对通用数据表j进行过扫描的数据表数目;
分母为通用数据表j最近90天的平均子表数的示例。
在本申请实施例中,所述存储成本计算因子获取子单元312C还可以进一步用于:
获取所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表;
采用如下公式依据所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表,计算出存储成本计算因子:
Figure PCTCN2017070977-appb-000025
其中,scansize(i,j)为外部数据表i对通用数据表j的扫描量;
m为与通用数据表j存在依赖关系的k张表,为编号1…k。
在本申请实施例中,所述扫描成本计算因子获取子单元312E还可以进一步用于:
获取所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的依赖层级;
采用如下公式依据所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的层级,计算出扫描成本计算因子:
Figure PCTCN2017070977-appb-000026
其中,hot_ratio(j)为通用数据表j的热度字段的数量占表中总字段数量的比例;
level(j)为通用数据表j在数据公共层中的依赖层级。
在本申请实施例中,可以通过如下公式采用所述使用成本特征参数计算所述外部数据表的使用成本数据:
cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
其中,i为外部数据表,j为通用数据表,数据表i与数据表j之间存在依赖关系;
cost(i,j)为外部数据表i使用通用数据表j的使用成本数据;
compcost(j)为通用数据表j的加工成本数据中的第一计算成本参数;
compfac(i,j)为外部数据表i与通用数据表j之间的计算成本计算因子;
storcost(j)为通用数据表j的加工成本数据中第一存储成本参数;
storfac(i,j)为外部数据表i与通用数据表j之间的存储成本计算因 子;
scancost(j)为通用数据表j加工成本数据中的第一扫描成本参数;
scanfac(i,j)为外部数据表i与通用数据表j之间的扫描成本计算因子。
在本申请实施例中,所述装置还可以包括如下模块:
第一提取模块304,用于在所述加工成本数据满足第一预设条件时,提取对应的通用数据表;
在本申请实施例中,所述第一提取模块304具体可以包括如下子模块:
第一提取子模块3041,用于在某张通用数据表的第一存储成本参数与第一计算成本参数的比值高于第一预设阈值时,提取出所述通用数据表;
和/或,
第二提取子模块3042,用于在某张通用数据表的第一计算成本参数高于第二预设阈值时,提取出所述通用数据表;
和/或,
第三提取子模块3043,用于在某张通用数据表的第一扫描成本参数与第一计算成本参数的比值高于第三预设阈值时,提取出所述通用数据表;
和/或,
第四统计子模块3044,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二计算成本参数之和;
第四提取子模块3045,用于在所述通用数据表的第一计算成本参数大于所述第二计算成本参数之和时,提取出所述通用数据表;
和/或,
第五统计子模块3046,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二存储成本参数之和;
第五提取子模块3047,用于在所述通用数据表的第一存储成本参数大于所述第二存储成本参数之和时,提取出所述通用数据表;
和/或,
第六统计子模块3048,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二扫描成本参数之和;
第六提取子模块3049,用于在所述通用数据表的第一扫描成本参数大于所述第二扫描成本参数之和时,提取出所述通用数据表。
在本申请实施例中,所述装置还可以包括如下模块:
第二提取模块305,用于在所述使用成本数据满足第二预设条件时,提取对应的外部数据表。
在本申请实施例中,所述第二提取模块305具体可以包括如下子模块:
第七提取子模块3051,用于在某张外部数据表的第二存储成本参数与第二计算成本参数的比值高于第四预设阈值时,提取出所述外部数据表;
和/或,
第八提取子模块3052,用于在某张外部数据表能够从其他通用数据表获得与当前通用数据表相同的数据,且在通过其他通用数据表获取数据时的第二扫描成本参数小于从当前通用数据表获取数据时的第二扫描成本参数时,提取出所述外部数据表。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的 比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机 程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种数据表分析处理的方法和一种数据表分析处理的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (38)

  1. 一种数据表分析处理的方法,其特征在于,所述数据表包括数据公共层的通用数据表,以及,非数据公共层的外部数据表,所述的方法包括:
    针对所述数据公共层的通用数据表计算加工成本数据;
    确定所述非数据公共层的外部数据表所依赖的通用数据表;
    依据所述通用数据表的加工成本数据,计算所述外部数据表的使用成本数据。
  2. 根据权利要求1所述的方法,其特征在于,所述针对所述数据公共层的通用数据表计算加工成本数据的步骤包括:
    提取所述数据公共层的通用数据表的加工成本特征参数;
    采用所述加工成本特征参数计算所述通用数据表的加工成本数据。
  3. 根据权利要求2所述的方法,其特征在于,所述加工成本特征参数包括第一扫描成本参数,所述提取所述数据公共层的通用数据表的加工成本特征参数的子步骤进一步包括:
    统计所述通用数据表所依赖的父表的数量;
    获取所述通用数据表对所述父表的扫描量;
    统计所述父表下所有子表的数量;
    所述采用所述加工成本特征参数计算所述通用数据表的加工成本数据的子步骤进一步包括:
    采用所述通用数据表所依赖的父表数量,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数。
  4. 根据权利要求3所述的方法,其特征在于,所述加工成本特征 参数还包括第一计算成本参数,以及,第一存储成本参数,所述提取所述数据公共层的通用数据表的加工成本特征参数的子步骤进一步包括:
    提取所述通用数据表的复杂度CU作为第一计算成本参数;
    提取所述通用数据表的存储量作为第一存储成本参数。
  5. 根据权利要求3或4所述的方法,其特征在于,通过如下公式采用所述通用数据表所依赖的父表数量,以及,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数:
    Figure PCTCN2017070977-appb-100001
    其中,Cost(j)为数据表j的加工成本数据,
    数据表j为数据表i所依赖的m张父表,编号为1…m,
    ScanSize(i,j)为通用数据表i对父表j的扫描量,
    数据表m为父表j的所有子表,编号为1…n。
  6. 根据权利要求5所述的方法,其特征在于,通过如下公式采用所述加工成本特征参数计算所述通用数据表的加工成本数据:
    Figure PCTCN2017070977-appb-100002
    其中,ComputeCost(i)为通用数据表i的第一计算成本参数;
    StorageCost(i)为通用数据表i的第一存储成本参数;
    ScanCost(i,j)为通用数据表i对父表j的第一扫描成本参数。
  7. 根据权利要求2或3或4所述的方法,其特征在于,所述依据所述通用数据表的加工成本数据,计算所述外部数据表的使用成本数据的步骤为,
    依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据。
  8. 根据权利要求7所述的方法,其特征在于,所述依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据步骤包括:
    提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数;
    采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数;
    采用所述使用成本特征参数计算所述外部数据表的使用成本数据。
  9. 根据权利要求8所述的方法,其特征在于,所述使用成本特征参数包括第二计算成本参数;
    所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤为:
    提取所述外部数据表所依赖的通用数据表的第一计算成本参数;
    所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤包括:
    获取所述外部数据表与其所依赖的通用数据表之间的计算成本计算因子;
    采用所述计算成本计算因子校正所述第一计算成本参数,获得第二计算成本参数。
  10. 根据权利要求9所述的方法,其特征在于,所述使用成本特征参数包括第二存储成本参数;
    所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤为:
    提取所述外部数据表所依赖的通用数据表的第一存储成本参数;
    所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤还包括:
    获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子;
    采用所述存储成本计算因子校正所述第一存储成本参数,获得第二存储成本参数。
  11. 根据权利要求10所述的方法,其特征在于,所述使用成本特征参数包括第二扫描成本参数;
    所述提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数的子步骤为:
    提取所述外部数据表所依赖的通用数据表的第一扫描成本参数;
    所述采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数的步骤还包括:
    获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子;
    采用所述存储成本计算因子校正所述第一扫描成本参数,获得第二扫描成本参数。
  12. 根据权利要求9所述的方法,其特征在于,获取所述外部数据表与其所依赖的通用数据表之间的计算成本计算因子的子步骤进一步包括:
    获取最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数;
    采用如下公式依据所述最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表 数,计算出成本计算因子:
    Figure PCTCN2017070977-appb-100003
    其中,m为最近m天中的每一天;
    scanm(j)为第m天对通用数据表j进行过扫描的数据表数目;
    分母为通用数据表j最近90天的平均子表数的示例。
  13. 根据权利要求10所述的方法,其特征在于,获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子的子步骤进一步包括:
    获取所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表;
    采用如下公式依据所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表,计算出存储成本计算因子:
    Figure PCTCN2017070977-appb-100004
    其中,scansize(i,j)为外部数据表i对通用数据表j的扫描量;
    m为与通用数据表j存在依赖关系的k张表,为编号1…k。
  14. 根据权利要求11所述的方法,其特征在于,获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子的子步骤进一步包括:
    获取所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的依赖层级,所述热度字段为在某一时间段内被使用的次数大于所述通用数据表的直接下游数据表数量的字段;
    采用如下公式依据所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的层级,计算出扫描成本计算因子:
    Figure PCTCN2017070977-appb-100005
    其中,hot_ratio(j)为通用数据表j的热度字段的数量占表中总字段数量的比例;
    level(j)为通用数据表j在数据公共层中的依赖层级。
  15. 根据权利要求12或13或14所述的方法,其特征在于,通过如下公式采用所述使用成本特征参数计算所述外部数据表的使用成本数据:
    cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
    其中,i为外部数据表,j为通用数据表,数据表i与数据表j之间存在依赖关系;
    cost(i,j)为外部数据表i使用通用数据表j的使用成本数据;
    compcost(j)为通用数据表j的加工成本数据中的第一计算成本参数;
    compfac(i,j)为外部数据表i与通用数据表j之间的计算成本计算因子;
    storcost(j)为通用数据表j的加工成本数据中第一存储成本参数;
    storfac(i,j)为外部数据表i与通用数据表j之间的存储成本计算因子;
    scancost(j)为通用数据表j加工成本数据中的第一扫描成本参数;
    scanfac(i,j)为外部数据表i与通用数据表j之间的扫描成本计算因子。
  16. 根据权利要求1或2或3或4或6或8或9或10或11或12或13或14所述的方法,其特征在于,还包括:
    当所述加工成本数据满足第一预设条件时,提取对应的通用数据表。
  17. 根据权利要求16所述的方法,其特征在于,所述当所述加工成本数据满足第一预设条件时,提取对应的通用数据表的步骤包括:
    若某张通用数据表的第一存储成本参数与第一计算成本参数的比值高于第一预设阈值,则提取出所述通用数据表;
    和/或,
    若某张通用数据表的第一计算成本参数高于第二预设阈值,则提取出所述通用数据表;
    和/或,
    若某张通用数据表的第一扫描成本参数与第一计算成本参数的比值高于第三预设阈值,则提取出所述通用数据表;
    和/或,
    统计与某张通用数据表的存在直接依赖关系的外部数据表的第二计算成本参数之和;
    若所述通用数据表的第一计算成本参数大于所述第二计算成本参数之和,则提取出所述通用数据表;
    和/或,
    统计与某张通用数据表的存在直接依赖关系的外部数据表的第二存储成本参数之和;
    若所述通用数据表的第一存储成本参数大于所述第二存储成本参数之和,则提取出所述通用数据表;
    和/或,
    统计与某张通用数据表的存在直接依赖关系的外部数据表的第二扫描成本参数之和;
    若所述通用数据表的第一扫描成本参数大于所述第二扫描成本参数之和,则提取出所述通用数据表。
  18. 根据权利要求1或2或3或4或6或8或9或10或11或12或13或14或17所述的方法,其特征在于,还包括:
    当所述使用成本数据满足第二预设条件时,提取对应的外部数据表。
  19. 根据权利要求18所述的方法,其特征在于,所述当所述加工成本数据满足第二预设条件时,提取对应的外部数据表的步骤包括:
    若某张外部数据表的第二存储成本参数与第二计算成本参数的比值高于第四预设阈值,则提取出所述外部数据表;
    和/或,
    若某张外部数据表能够从其他通用数据表获得与当前通用数据表相同的数据,且在通过其他通用数据表获取数据时的第二扫描成本参数小于从当前通用数据表获取数据时的第二扫描成本参数,则提取出所述外部数据表。
  20. 一种数据表分析处理的装置,其特征在于,所述数据表包括数据公共层的通用数据表,以及,非数据公共层的外部数据表,所述的装置包括:
    加工成本计算模块,用于针对所述数据公共层的通用数据表计算加工成本数据;
    确定模块,用于确定所述非数据公共层的外部数据表所依赖的通用数据表;
    使用成本计算模块,用于依据所述通用数据表的加工成本数据,计算所述外部数据表的使用成本数据。
  21. 根据权利要求20所述的装置,其特征在于,所述加工成本计算模块包括:
    加工成本特征参数提取子模块,用于提取所述数据公共层的通用数据表的加工成本特征参数;
    加工成本计算子模块,用于采用所述加工成本特征参数计算所述通用数据表的加工成本数据。
  22. 根据权利要求21所述的装置,其特征在于,所述加工成本特征参数包括第一扫描成本参数,所述加工成本特征参数提取子模块进一步包括:
    父表数量统计单元,用于统计所述通用数据表所依赖的父表的数量;
    扫描量获取单元,用于获取所述通用数据表对所述父表的扫描量;
    子表数量统计单元,用于统计所述父表下所有子表的数量;
    所述加工成本计算子模块进一步包括:
    第一扫描成本计算单元,用于采用所述通用数据表所依赖的父表数量,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数。
  23. 根据权利要求22所述的装置,其特征在于,所述加工成本特征参数还包括第一计算成本参数,以及,第一存储成本参数,所述加工成本特征参数提取子模块进一步包括:
    第一计算成本参数提取单元,用于提取所述通用数据表的复杂度CU作为第一计算成本参数;
    第一存储成本参数提取单元,用于提取所述通用数据表的存储量作 为第一存储成本参数。
  24. 根据权利要求22或23所述的装置,其特征在于,通过如下公式采用所述通用数据表所依赖的父表数量,以及,所述通用数据表对所述父表的扫描量,以及,所述父表下所有子表的数量,计算出第一扫描成本参数:
    Figure PCTCN2017070977-appb-100006
    其中,Cost(j)为数据表j的加工成本数据,
    数据表j为数据表i所依赖的m张父表,编号为1…m,
    ScanSize(i,j)为通用数据表i对父表j的扫描量,
    数据表m为父表j的所有子表,编号为1…n。
  25. 根据权利要求24所述的装置,其特征在于,通过如下公式采用所述加工成本特征参数计算所述通用数据表的加工成本数据:
    Figure PCTCN2017070977-appb-100007
    其中,ComputeCost(i)为通用数据表i的第一计算成本参数;
    StorageCost(i)为通用数据表i的第一存储成本参数;
    ScanCost(i,j)为通用数据表i对父表j的第一扫描成本参数。
  26. 根据权利要求21或22或23所述的装置,其特征在于,所述使用成本计算模块包括:
    使用成本计算子模块,用于依据所述通用数据表的加工成本特征参数,计算所述外部数据表的使用成本数据。
  27. 根据权利要求26所述的装置,其特征在于,所述使用成本计算子模块包括:
    加工成本特征参数提取单元,用于提取所述非数据公共层的外部数据表所依赖的通用数据表的加工成本特征参数;
    使用成本特征参数计算单元,用于采用所述加工成本特征参数计算所述外部数据表的使用成本特征参数;
    使用成本数据计算单元,用于采用所述使用成本特征参数计算所述外部数据表的使用成本数据。
  28. 根据权利要求27所述的装置,其特征在于,所述使用成本特征参数包括第二计算成本参数;
    所述加工成本特征参数提取单元包括:
    第一计算成本参数提前子单元,用于提取所述外部数据表所依赖的通用数据表的第一计算成本参数;
    所述使用成本特征参数计算单元包括:
    计算成本计算因子获取子单元,用于获取所述外部数据表与其所依赖的通用数据表之间的计算成本计算因子;
    第二计算成本参数计算子单元,用于采用所述计算成本计算因子校正所述第一计算成本参数,获得第二计算成本参数。
  29. 根据权利要求28所述的装置,其特征在于,所述使用成本特征参数包括第二存储成本参数;
    所述加工成本特征参数提取单元包括:
    第一存储成本参数提取子单元,用于提取所述外部数据表所依赖的通用数据表的第一存储成本参数;
    所述使用成本特征参数计算单元还包括:
    存储成本计算因子获取子单元,用于获取所述外部数据表与其所依赖的通用数据表之间的存储成本计算因子;
    第二存储成本参数计算子单元,用于采用所述存储成本计算因子校正所述第一存储成本参数,获得第二存储成本参数。
  30. 根据权利要求29所述的装置,其特征在于,所述使用成本特征参数包括第二扫描成本参数;
    所述加工成本特征参数提取单元包括:
    第一扫描成本参数提取子单元,用于提取所述外部数据表所依赖的通用数据表的第一扫描成本参数;
    所述使用成本特征参数计算单元还包括:
    扫描成本计算因子获取子单元,用于获取所述外部数据表与其所依赖的通用数据表之间的扫描成本计算因子;
    第二扫描成本参数计算子单元,用于采用所述存储成本计算因子校正所述第一扫描成本参数,获得第二扫描成本参数。
  31. 根据权利要求28所述的装置,其特征在于,所述计算成本计算因子获取子单元进一步用于:
    获取最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数;
    采用如下公式依据所述最近m天中每一天对所述通用数据表进行过扫描的数据表的数目,以及,所述通用数据表最近m天的平均子表数,计算出成本计算因子:
    Figure PCTCN2017070977-appb-100008
    其中,m为最近m天中的每一天;
    scanm(j)为第m天对通用数据表j进行过扫描的数据表数目;
    分母为通用数据表j最近90天的平均子表数的示例。
  32. 根据权利要求29所述的装置,其特征在于,所述存储成本计算因子获取子单元进一步用于:
    获取所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表;
    采用如下公式依据所述外部数据表对其所依赖的通用数据表的扫描量,以及,与所述通用数据表存在依赖关系的k张表,计算出存储成本计算因子:
    Figure PCTCN2017070977-appb-100009
    其中,scansize(i,j)为外部数据表i对通用数据表j的扫描量;
    m为与通用数据表j存在依赖关系的k张表,为编号1…k。
  33. 根据权利要求30所述的装置,其特征在于,所述扫描成本计算因子获取子单元进一步用于:
    获取所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的依赖层级,所述热度字段为在某一时间段内被使用的次数大于所述通用数据表的直接下游数据表数量的字段;
    采用如下公式依据所述通用数据表中热度字段所占的比例,以及,所述通用数据表在当前数据公共层中的层级,计算出扫描成本计算因子:
    Figure PCTCN2017070977-appb-100010
    其中,hot_ratio(j)为通用数据表j的热度字段的数量占表中总字段数量的比例;
    level(j)为通用数据表j在数据公共层中的依赖层级。
  34. 根据权利要求31或32或33所述的装置,其特征在于,通过 如下公式采用所述使用成本特征参数计算所述外部数据表的使用成本数据:
    cost(i,j)=compcost(j)*compfac(i,j)+storcost(j)*storfac(j)+scancost(j)*scanfac(i,j)
    其中,i为外部数据表,j为通用数据表,数据表i与数据表j之间存在依赖关系;
    cost(i,j)为外部数据表i使用通用数据表j的使用成本数据;
    compcost(j)为通用数据表j的加工成本数据中的第一计算成本参数;
    compfac(i,j)为外部数据表i与通用数据表j之间的计算成本计算因子;
    storcost(j)为通用数据表j的加工成本数据中第一存储成本参数;
    storfac(i,j)为外部数据表i与通用数据表j之间的存储成本计算因子;
    scancost(j)为通用数据表j加工成本数据中的第一扫描成本参数;
    scanfac(i,j)为外部数据表i与通用数据表j之间的扫描成本计算因子。
  35. 根据权利要求20或21或22或23或25或27或28或29或30或31或32或33所述的装置,其特征在于,还包括:
    第一提取模块,用于在所述加工成本数据满足第一预设条件时,提取对应的通用数据表。
  36. 根据权利要求35所述的装置,其特征在于,所述第一提取模块包括:
    第一提取子模块,用于在某张通用数据表的第一存储成本参数与第一计算成本参数的比值高于第一预设阈值时,提取出所述通用数据表;
    和/或,
    第二提取子模块,用于在某张通用数据表的第一计算成本参数高于第二预设阈值时,提取出所述通用数据表;
    和/或,
    第三提取子模块,用于在某张通用数据表的第一扫描成本参数与第一计算成本参数的比值高于第三预设阈值时,提取出所述通用数据表;
    和/或,
    第四统计子模块,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二计算成本参数之和;
    第四提取子模块,用于在所述通用数据表的第一计算成本参数大于所述第二计算成本参数之和时,提取出所述通用数据表;
    和/或,
    第五统计子模块,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二存储成本参数之和;
    第五提取子模块,用于在所述通用数据表的第一存储成本参数大于所述第二存储成本参数之和时,提取出所述通用数据表;
    和/或,
    第六统计子模块,用于统计与某张通用数据表的存在直接依赖关系的外部数据表的第二扫描成本参数之和;
    第六提取子模块,用于在所述通用数据表的第一扫描成本参数大于所述第二扫描成本参数之和时,提取出所述通用数据表。
  37. 根据权利要求20或21或22或23或25或27或28或29或30或31或32或33或36所述的装置,其特征在于,还包括:
    第二提取模块,用于在所述使用成本数据满足第二预设条件时,提 取对应的外部数据表。
  38. 根据权利要求37所述的装置,其特征在于,所述第二提取模块包括:
    第七提取子模块,用于在某张外部数据表的第二存储成本参数与第二计算成本参数的比值高于第四预设阈值时,提取出所述外部数据表;
    和/或,
    第八提取子模块,用于在某张外部数据表能够从其他通用数据表获得与当前通用数据表相同的数据,且在通过其他通用数据表获取数据时的第二扫描成本参数小于从当前通用数据表获取数据时的第二扫描成本参数时,提取出所述外部数据表。
PCT/CN2017/070977 2016-01-21 2017-01-12 一种数据表分析处理的方法和装置 WO2017124959A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP17740990.1A EP3407212A4 (en) 2016-01-21 2017-01-12 METHOD AND DEVICE USABLE IN ANALYSIS OF A TABLE OF DATA
US16/041,336 US10909481B2 (en) 2016-01-21 2018-07-20 Method and apparatus for analyzing data table

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610042109.0A CN106991101B (zh) 2016-01-21 2016-01-21 一种数据表分析处理的方法和装置
CN201610042109.0 2016-01-21

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/041,336 Continuation US10909481B2 (en) 2016-01-21 2018-07-20 Method and apparatus for analyzing data table

Publications (1)

Publication Number Publication Date
WO2017124959A1 true WO2017124959A1 (zh) 2017-07-27

Family

ID=59361344

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/070977 WO2017124959A1 (zh) 2016-01-21 2017-01-12 一种数据表分析处理的方法和装置

Country Status (5)

Country Link
US (1) US10909481B2 (zh)
EP (1) EP3407212A4 (zh)
CN (1) CN106991101B (zh)
TW (1) TW201732641A (zh)
WO (1) WO2017124959A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517009B (zh) * 2019-07-29 2023-01-24 创新先进技术有限公司 实时公共层建设方法、装置及服务器
CN110457329B (zh) * 2019-08-16 2022-05-06 第四范式(北京)技术有限公司 一种实现个性化推荐的方法及装置
CN112256720B (zh) * 2020-10-21 2021-08-17 平安科技(深圳)有限公司 数据成本计算方法、系统、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995958A (en) * 1997-03-04 1999-11-30 Xu; Kevin Houzhi System and method for storing and managing functions
CN101055567A (zh) * 2007-05-25 2007-10-17 金蝶软件(中国)有限公司 一种电子数据表计算链的生成方法和系统
CN102436494A (zh) * 2011-11-11 2012-05-02 中国工商银行股份有限公司 基于实践检验的执行计划优化的装置及方法
CN104899209A (zh) * 2014-03-05 2015-09-09 阿里巴巴集团控股有限公司 针对开放式数据处理服务的优化方法和装置
CN105224536A (zh) * 2014-05-29 2016-01-06 国际商业机器公司 划分数据库的方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260563B1 (en) * 2003-10-08 2007-08-21 Ncr Corp. Efficient costing for inclusion merge join
US7366716B2 (en) * 2005-05-06 2008-04-29 Microsoft Corporation Integrating vertical partitioning into physical database design
WO2008139936A1 (ja) * 2007-05-11 2008-11-20 Nec Corporation データベース構造化支援システム
US8312026B2 (en) * 2009-12-22 2012-11-13 At&T Intellectual Property I, L.P. Compressing massive relational data
US9020910B2 (en) * 2010-01-13 2015-04-28 International Business Machines Corporation Storing tables in a database system
US9292690B2 (en) * 2011-12-12 2016-03-22 International Business Machines Corporation Anomaly, association and clustering detection
US10019478B2 (en) * 2013-09-05 2018-07-10 Futurewei Technologies, Inc. Mechanism for optimizing parallel execution of queries on symmetric resources

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5995958A (en) * 1997-03-04 1999-11-30 Xu; Kevin Houzhi System and method for storing and managing functions
CN101055567A (zh) * 2007-05-25 2007-10-17 金蝶软件(中国)有限公司 一种电子数据表计算链的生成方法和系统
CN102436494A (zh) * 2011-11-11 2012-05-02 中国工商银行股份有限公司 基于实践检验的执行计划优化的装置及方法
CN104899209A (zh) * 2014-03-05 2015-09-09 阿里巴巴集团控股有限公司 针对开放式数据处理服务的优化方法和装置
CN105224536A (zh) * 2014-05-29 2016-01-06 国际商业机器公司 划分数据库的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3407212A4 *

Also Published As

Publication number Publication date
TW201732641A (zh) 2017-09-16
EP3407212A4 (en) 2019-06-19
EP3407212A1 (en) 2018-11-28
CN106991101A (zh) 2017-07-28
US10909481B2 (en) 2021-02-02
CN106991101B (zh) 2021-02-02
US20180349811A1 (en) 2018-12-06

Similar Documents

Publication Publication Date Title
Li et al. Link prediction in social networks based on hypergraph
Liu et al. Analyzing urban networks through the lens of corporate networks: A critical review
Huang et al. Flood disaster loss comprehensive evaluation model based on optimization support vector machine
WO2017124959A1 (zh) 一种数据表分析处理的方法和装置
WO2019001429A1 (zh) 一种多源数据融合方法和装置
Xia et al. Effectively identifying the influential spreaders in large-scale social networks
TW201737127A (zh) 資料檢索方法和裝置、資料儲存方法和裝置
Roy et al. Spatial heterogeneity in the urban household living conditions: A-GIS-based spatial analysis
Giacobbe et al. Evaluating information quality in delivering IoT-as-a-service
Wei et al. Statistical inference on semi-parametric partial linear additive models
Gopalakrishnan et al. Big Data in building information modeling research: survey and exploratory text mining
Yadati et al. Game theoretic models for social network analysis
Han et al. Generating uncertain networks based on historical network snapshots
Li et al. Adaptive dynamic trust measurement and prediction model based on behavior monitoring
Zhao et al. Research on Hadoop-based massive short text clustering algorithm
Sidi et al. Data quality comparative model for data warehouse
Liu et al. Jump-detection and curve estimation methods for discontinuous regression functions based on the piecewise B-spline function
CN114860799A (zh) 数据仓库的质量检测方法和装置
Tuchowski et al. OBCAS-An Ontology-Based Cluster Analysis System
Zhang et al. Cext-N index: a network node centrality measure for collaborative relationship distribution
US20150199695A1 (en) Reporting on Technology Sector Sizes Using Patent Assets
CN113360553A (zh) 一种数据冷热程度评估方法及服务器
Zhang et al. A Service‐Based Method for Multiple Sensor Streams Aggregation in Fog Computing
Zhu et al. Research on grey relational evaluation of the competitiveness of aviation industrial cluster: By taking Xi'an Yanliang aviation park as an example
Chen et al. The maturity model research of construction project management informationization

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17740990

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2017740990

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2017740990

Country of ref document: EP

Effective date: 20180821