WO2016101628A1 - 一种数据建模中的数据处理方法及装置 - Google Patents

一种数据建模中的数据处理方法及装置 Download PDF

Info

Publication number
WO2016101628A1
WO2016101628A1 PCT/CN2015/086868 CN2015086868W WO2016101628A1 WO 2016101628 A1 WO2016101628 A1 WO 2016101628A1 CN 2015086868 W CN2015086868 W CN 2015086868W WO 2016101628 A1 WO2016101628 A1 WO 2016101628A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
data
target
extended
coefficient
Prior art date
Application number
PCT/CN2015/086868
Other languages
English (en)
French (fr)
Inventor
李辰
谭卫国
汪芳山
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP15871702.5A priority Critical patent/EP3223170A1/en
Publication of WO2016101628A1 publication Critical patent/WO2016101628A1/zh
Priority to US15/631,864 priority patent/US10606862B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Definitions

  • the present invention relates to the field of computer technologies, and in particular, to a data processing method and apparatus in data modeling.
  • Data mining is one of the steps in database knowledge discovery. It is to find valuable information from a large amount of data to extract valuable information.
  • data mining combines database technology, statistics, online analytical processing, and machine learning domain methods and techniques to process data from different perspectives.
  • the specific process of data mining includes the following steps: business understanding, data understanding, data preparation, modeling, model evaluation, and model deployment.
  • the raw data is the wide table data stored in the database or data warehouse.
  • the original data includes missing values (such as the age of Li XX), outliers (the age of Zhang XX and the duration of the call), and continuous values. (age column, package fee column, call duration column) and discrete values (gender, region, off-grid), each column in the original data is called a feature. In practical applications, different choices can be selected according to different training needs.
  • the feature is the target feature.
  • preprocessing the original data is a very important step in the data mining and data modeling process.
  • the preprocessing can transform the original data into a training data set suitable for the data modeling algorithm. More importantly, the pre-processing
  • the results of the processing directly affect the effects of data mining and data modeling.
  • data preparation is usually carried out by experts in the field of data mining. It not only has high technical requirements for modelers, but also requires manual participation in the preprocessing process. It is inefficient, time consuming, and processes the data preprocessing. Not reusable.
  • grid data is usually used for pre-processing of raw data.
  • all pre-processing methods and parameter configuration of each method need to be set.
  • the discretization of continuous values includes equal-width division. Box, equal-depth binning, equal frequency binning, etc., the parameters of the equal-width binning method can be 10, 50 or 100, etc.; according to different pre-processing methods and different parameter values, they are divided into a series of grids, each The grid corresponds to a combination of preprocessing methods, called a preprocessing scheme; the points in each grid are calculated in turn; the data results of each calculation output are used as training data for model training, after training is completed The effect of the model is evaluated, and the evaluation index corresponding to each grid is generated, and the result corresponding to the grid with the best evaluation index is selected as the final result.
  • the embodiment of the invention provides a data processing method and device in data modeling, which is used to solve the problem that the original data preprocessing flow in the prior art has a long calculation time, a large amount of calculation, increases a computer running load, wastes computing resources, and reduces The problem of computer productivity.
  • a data processing method in data modeling includes:
  • a data column corresponding to the important feature is filtered out in the extended feature set.
  • performing data conversion on a data column corresponding to any feature in the original data to generate a corresponding extended feature column includes:
  • the extended features corresponding to all the target data processing category identifiers are used as the extended feature columns of any of the features.
  • the target data processing category corresponding to any feature including:
  • the data types include discrete types, continuous types; or / and
  • the data defect type includes a missing value and an abnormal value.
  • the extended feature set corresponding to all the features in the original data is combined to generate an extended feature set, including :
  • each data column in the combined extended feature column is one-hot encoded, and after the extended feature set is generated, the method further includes :
  • a logical AND operation is performed on any two data columns in the extended feature set, and a new data column is added to the extended feature set.
  • determining a correlation coefficient of each feature in the extended feature set includes:
  • a correlation coefficient for each feature in the extended feature set is determined according to the target logistic regression function.
  • the target regularization coefficient is obtained, including:
  • the target regularization coefficient is selected in the preset multiple regularization coefficients based on the extended feature set, and specifically includes:
  • performing logical regression on the extended feature set according to each of the preset plurality of regularization coefficients Train and get the corresponding logistic regression function including:
  • Logistic regression training is performed on the training set according to each of the preset regularization coefficients, to obtain a corresponding logistic regression function.
  • determining a target regularization coefficient according to a logistic regression function corresponding to each regularization coefficient including:
  • the corresponding logistic regression function with the highest accuracy coefficient is selected, and the regularization coefficient corresponding to the selected logistic regression function is used as the target regularization coefficient.
  • the accuracy coefficient is any one of the following: an accuracy rate, a recall rate, and an F value. And an area AUC under the receiver operating characteristic curve; when the target feature is a continuous feature, the accuracy coefficient is the reciprocal of the sum of squared errors.
  • determining a correlation of each feature in the extended feature set according to the target logical regression function Coefficients including:
  • a weight corresponding to each feature in the target logistic regression function is used as a correlation coefficient corresponding to each feature.
  • selecting a feature whose correlation coefficient meets the set condition is an important feature, including:
  • Each feature is sorted according to the correlation coefficient from large to small, and the number of features before the selection is selected as an important feature.
  • a data processing apparatus in data modeling includes:
  • a reading unit configured to read the original data and the preset plurality of data processing category identifiers, wherein each of the data columns corresponds to one feature
  • a processing unit configured to identify respectively corresponding data conversion functions according to the respective data processing categories, perform data conversion on the data columns corresponding to each feature in the original data, and generate corresponding extended feature columns, and all the original data
  • the extended feature columns corresponding to the features are combined to generate an extended feature set
  • a determining unit configured to determine a correlation coefficient of each feature in the extended feature set
  • a first selection unit configured to select a feature whose correlation coefficient meets the set condition as an important feature
  • a second selecting unit configured to filter, in the extended feature set, a data column corresponding to the important feature.
  • the processing unit is configured to: when performing data conversion on a data column corresponding to any feature in the original data to generate a corresponding extended feature column, specifically:
  • Data conversion corresponding to the data column corresponding to any feature is performed according to the data conversion function corresponding to each target data processing category identifier of the selected one, and each target data processing category identifier is generated.
  • the extended features corresponding to all the target data processing category identifiers are used as the extended feature columns of any of the features.
  • the processing unit is in the data column corresponding to the any feature, in the multiple data processing category identifiers, When filtering out the target data processing categories corresponding to any of the features described above, specifically for:
  • the data types include discrete types, continuous types; or / and
  • the data defect type includes a missing value and an abnormal value.
  • the processing unit combines the extended feature columns corresponding to all the features in the original data to generate When expanding a feature set, it is specifically used to:
  • the processing unit performs one-hot encoding on each data column in the combined extended feature column to generate an extended feature. After the collection, it is also used to:
  • a logical AND operation is performed on any two data columns in the extended feature set, and a new data column is added to the extended feature set.
  • the determining unit is specifically configured to:
  • the determining unit when acquiring the target regularization coefficient, is specifically configured to:
  • the determining unit selects a target regularization coefficient from a preset plurality of regularization coefficients When specifically used to:
  • the determining unit is configured to perform the expansion according to each of the preset plurality of regularization coefficients
  • the feature set is subjected to logistic regression training and the corresponding logistic regression function is obtained, it is specifically used to:
  • Logistic regression training is performed on the training set according to each of the preset regularization coefficients, to obtain a corresponding logistic regression function.
  • the determining unit when determining the target regularization coefficient according to the logistic regression function corresponding to each regularization coefficient, is specifically used :
  • the corresponding logistic regression function with the highest accuracy coefficient is selected, and the regularization coefficient corresponding to the selected logistic regression function is used as the target regularization coefficient.
  • the accuracy coefficient is any one of the following: an accuracy rate, a recall rate, and an F value. And an area AUC under the receiver operating characteristic curve; when the target feature is a continuous feature, the accuracy coefficient is the reciprocal of the sum of squared errors.
  • the determining unit determines, in the extended feature set, according to the target logical regression function
  • the correlation coefficient of a feature is specifically used to:
  • a weight corresponding to each feature in the target logistic regression function is used as a correlation coefficient corresponding to each feature.
  • the first selecting unit is specifically configured to:
  • Each feature is sorted according to the correlation coefficient from large to small, and the number of features before the selection is selected as an important feature.
  • the data column corresponding to each feature in the read original data is converted into a corresponding extended feature column by using a data conversion function corresponding to the preset data processing category identifier, and the corresponding extended feature column is generated.
  • the extended feature columns corresponding to all the features are combined to generate an extended feature set; the correlation coefficient of each feature in the extended feature set is determined; the feature whose correlation coefficient meets the set condition is selected as an important feature, and the corresponding feature is selected in the extended feature set.
  • the data column By expanding the feature, the calculation of the multi-data preprocessing method is reduced, and the problem of long consumption time and large calculation amount caused by data modeling by the exhaustive data preprocessing method is avoided, and the calculation efficiency is improved.
  • Sexual sorting selects important features, can control the number of features, reduces the amount of input data in data modeling, and the amount of computation of the computer. It also adapts the data preprocessing results to multiple data modeling algorithms, improving the automated data modeling. Flexibility and adaptability.
  • FIG. 1 is a schematic structural diagram of a terminal device according to an embodiment of the present disclosure
  • FIG. 2 is a specific flowchart of a data processing method in data modeling according to an embodiment of the present invention
  • FIG. 3 is a schematic structural diagram of a data processing apparatus in data modeling according to an embodiment of the present invention.
  • the data processing method in the data modeling provided by the present invention performs data conversion on the data column corresponding to each feature in the read original data by generating a corresponding data conversion function according to the preset data processing category identifier. Expanding the feature column, combining the extended feature columns corresponding to all the features in the original data to generate an extended feature set; determining the correlation coefficient of each feature in the extended feature set; selecting the feature whose correlation coefficient meets the set condition as an important feature, The extended feature set filters out the data columns corresponding to the important features.
  • the calculation of the multi-data preprocessing method is reduced, and the problem of long consumption time and large calculation amount caused by data modeling by the exhaustive data preprocessing method is avoided, and the calculation efficiency is improved.
  • Sexual sorting selects important features, can control the number of features, reduces the amount of input data in data modeling, and the amount of computation of the computer. It also adapts the data preprocessing results to multiple data modeling algorithms, improving the automated data modeling. Flexibility and adaptability.
  • Embodiments of the present invention provide a data processing method in data modeling, which is applied to various terminal devices, such as computers and servers, for implementing data modeling and data mining. Preferred embodiments of the present invention will be described in detail below with reference to the accompanying drawings.
  • An embodiment of the present invention provides a terminal device that implements a data processing method in data modeling, where the terminal is a computer or the like that carries various types of applications.
  • the device includes a transceiver 101, a processor 102, a bus 103, and a memory 104, wherein:
  • the transceiver 101, the processor 102, and the memory 104 are connected to each other through a bus 103.
  • the bus 103 may be a peripheral component interconnect (PCI) bus or an extended industry standard architecture (EISA) bus. Wait.
  • PCI peripheral component interconnect
  • EISA extended industry standard architecture
  • the bus can be divided into an address bus, a data bus, a control bus, and the like. For ease of representation, only one thick line is shown in Figure 1, but it does not mean that there is only one bus or one type of bus.
  • the transceiver 101 is configured to acquire raw data, and output the result of the final data processing, the data column corresponding to the important feature, and the like.
  • the processor 102 is configured to implement the data processing method in the data modeling shown in FIG. 2 of the embodiment of the present invention, including:
  • each data processing category identifier corresponding to the data conversion function the data column corresponding to each feature in the original data is transformed into a corresponding extended feature column, and the extended feature columns corresponding to all features in the original data are combined to generate Extended feature set;
  • the data columns corresponding to the important features are filtered in the extended feature set.
  • performing data conversion on the data column corresponding to any feature in the original data to generate a corresponding extended feature column including:
  • the extended feature corresponding to all target data processing category identifiers is used as an extended feature column of any of the features.
  • the target data processing categories corresponding to the any feature are selected, including:
  • combining the extended feature columns corresponding to all the features in the original data to generate the extended feature set includes:
  • the extended feature columns corresponding to all the features in the original data are combined, and each data column in the combined extended feature columns is subjected to one-hot encoding by one heat to generate an extended feature set.
  • performing one-hot encoding on each data column in the combined extended feature column, and after generating the extended feature set, the method further includes:
  • determining a correlation coefficient for each feature in the extended feature set including:
  • a correlation coefficient for each feature in the extended feature set is determined according to a target logistic regression function.
  • obtain the target regularization coefficient including:
  • the target regularization coefficient is selected in the preset multiple regularization coefficients, and specifically includes:
  • logistic regression training on the extended feature set according to each of the preset regularization coefficients, respectively, to obtain a corresponding logistic regression function, including:
  • Logistic regression training is performed on the training set according to each of the preset regularization coefficients, and the corresponding logistic regression function is obtained.
  • determining a target regularization coefficient according to a logistic regression function corresponding to each regularization coefficient including:
  • Data in the extended feature set other than the training set is used as a verification set
  • the corresponding logistic regression function with the highest accuracy coefficient is selected, and the regularization coefficient corresponding to the selected logistic regression function is used as the target regularization coefficient.
  • the accuracy coefficient is any one of the following: an accuracy rate, a recall rate, an F value, and an area AUC under the receiver operating characteristic curve; when the target feature is a continuous feature, The accuracy factor is the reciprocal of the sum of squared errors.
  • determining a correlation coefficient of each feature in the extended feature set according to the target logistic regression function including:
  • the weight corresponding to each feature in the target logistic regression function is taken as the correlation coefficient corresponding to each feature.
  • selecting a feature whose correlation coefficient meets the set condition is an important feature, including:
  • Each feature is sorted according to the correlation coefficient from large to small, and the number of features before the selection is selected as an important feature.
  • the terminal device 100 further includes a memory 104 for storing programs, data processing category identifiers and corresponding data conversion functions, original data, and extended feature sets generated by the original data.
  • the program can include program code, the program code including computer operating instructions.
  • the memory 104 may include a random access memory (RAM), and may also include a non-volatile memory such as at least one disk storage.
  • the processor 102 executes an application stored in the memory 104 to implement a data processing method as described above in data modeling.
  • a specific processing procedure of a data processing method in data modeling includes:
  • Step 201 Read original data and preset multiple data processing category identifiers, wherein each data column in the original data corresponds to one feature.
  • the original data may be read from a local database or a data warehouse, or the original data may be directly read from a server or other storage device, and the original data is a wide table data as shown in Table 1, where Each data column corresponds to a feature.
  • the preset multiple data processing category identifiers are stored in the preprocessing method knowledge base, and each data processing category identifier corresponds to a conversion function, that is, a preprocessing method including specific parameters, such as a parameter equalization bin of 10, or a parameter. A 50-equivalent bin, or a missing value padded as a neighbor padding.
  • Step 202 Identify data conversion functions corresponding to each data processing category, perform data conversion on the data columns corresponding to each feature in the original data, and generate corresponding extended feature columns, and expand features corresponding to all features in the original data. Columns are combined to generate an extended feature set.
  • performing data conversion on the data column corresponding to any feature in the original data to generate a corresponding extended feature column including:
  • the extended feature corresponding to all target data processing category identifiers is used as an extended feature column of any of the features.
  • screening in multiple data processing category identifiers
  • a target data processing category corresponding to any of the features including:
  • the values are 10, 50, and 100 equal-width bins, and the equal-depth bins with parameters of 50 and 100. They also include the neighbor padding and the fan padding filled with missing values. Therefore, the feature corresponds to the target data processing category identifier. Including 7;
  • each extended feature corresponds to a different number of data columns, for example, neighbor filling and The population is filled, the corresponding extended feature is a data column, and for the equal-width bin and the isometric bin, the generated data columns are different according to the number of split bins.
  • the extended feature corresponding to all target data processing category identifiers is used as the extended feature column of the feature. Therefore, the feature in the original data is a data column, and is converted into 7 different extended features according to 7 conversion functions, and the 7 extensions A feature is called an extended feature column of the feature.
  • combining the extended feature columns corresponding to all the features in the original data to generate the extended feature set includes:
  • the extended feature columns corresponding to all the features in the original data are combined, and each data column in the combined extended feature columns is subjected to one-hot encoding by one heat to generate an extended feature set.
  • One-hot encoding is performed on each data column in the combined extended feature column, and the value of each data is changed to 0 or 1, so that the data value of the generated extended feature set is simplified, and the extended feature set is improved. Processing speed.
  • a logical AND operation is performed on any two data columns in the extended feature set, and a new data column is added to the extended feature set.
  • the two data columns after one-hot encoding are logically ANDed to obtain high-order extended features, and then the high-order extended features are added to the extended feature set, so that the correlation of the two features can be accurately calculated.
  • Step 203 Determine a correlation coefficient of each feature in the extended feature set.
  • performing step 203 includes the following steps:
  • a correlation coefficient for each feature in the extended feature set is determined according to a target logistic regression function.
  • the target regularization coefficient is obtained, including the following two methods:
  • the first way obtaining a preset target regularization coefficient
  • the second method obtaining a preset plurality of regularization coefficients, and filtering the target regularization coefficients in the preset plurality of regularization coefficients based on the extended feature set.
  • the target regularization coefficient is selected in the preset plurality of regularization coefficients, including two methods:
  • the first method performing logistic regression training on the extended feature set according to each of the preset regularization coefficients, respectively, to obtain a corresponding logistic regression function; and then according to the logic corresponding to each regularization coefficient a regression function to determine a target regularization coefficient;
  • the second method performing linear support vector machine operations on the extended feature set according to each of the preset regularization coefficients, respectively, to obtain a corresponding support vector function; corresponding to each regularization coefficient Support vector functions to determine the target regularization coefficient.
  • the logistic regression training is performed on the extended feature set according to each of the preset regularization coefficients, and the corresponding logistic regression function is obtained, including:
  • Logistic regression training is performed on the training set according to each of the preset regularization coefficients, and a corresponding logistic regression function is obtained.
  • the extended feature set is randomly sampled by row, and the extended feature set is divided into a training set and a verification set according to a ratio, for example, a common 70:30 or 80:20, and the implementation of the present invention is not specifically limited.
  • Select one of the preset multiple regularization coefficients for example, 0.01, 0.05, 0.1, 0.2; use the training set as the input sample, and perform L1 norm or L2 norm logistic regression training for each lambda, and set
  • the target regularization coefficient is determined according to a logistic regression function corresponding to each regularization coefficient, including:
  • Data in the extended feature set other than the training set is used as a verification set
  • the corresponding logistic regression function with the highest accuracy coefficient is selected, and the regularization coefficient corresponding to the selected logistic regression function is used as the target regularization coefficient.
  • a linear support vector machine operation is performed on the extended feature set according to each of the preset regularization coefficients, respectively, to obtain a corresponding support vector function.
  • a linear support vector machine operation is performed on the training set according to each of the preset regularization coefficients, and a corresponding support vector function is obtained.
  • the target regularization coefficient is determined according to the support vector function corresponding to each regularization coefficient, including:
  • the data of the extended feature set other than the training set is used as a verification set
  • the corresponding support vector function with the highest accuracy coefficient is selected, and the regularization coefficient corresponding to the selected support vector function is used as the target regularization coefficient.
  • the accuracy coefficient is any one of the following: accuracy, recall, F value, and area under the receiver operating characteristic curve (Area Under roc Curver, AUC);
  • the accuracy coefficient is the reciprocal of the sum of squared errors.
  • the data of each row in the verification set except the data corresponding to the target feature is respectively brought into the logistic regression function, and the verification result is the same as the data corresponding to the target feature, and the accuracy is the same result.
  • the data other than the data corresponding to the target feature in the verification set are respectively substituted into the logistic regression function, and the average error squared sum of the data corresponding to the target feature is calculated and averaged.
  • the reciprocal of the sum of squared errors is taken as the accuracy factor.
  • determining, according to the target logistic regression function, a correlation coefficient of each feature in the extended feature set including:
  • the weight corresponding to each feature in the target logistic regression function is taken as the correlation coefficient corresponding to each feature.
  • Step 204 Select a feature whose correlation coefficient meets the set condition as an important feature.
  • the method when performing step 204, includes two methods:
  • the first way selecting a feature whose correlation coefficient is greater than a threshold of the correlation coefficient is selected as an important feature
  • the second way is to sort each feature according to the correlation coefficient from large to small, and select the number of features before the selection as an important feature.
  • Step 205 Filter out data columns corresponding to the important feature in the extended feature set.
  • the previously generated extended feature set is filtered, and only the data columns corresponding to the important features are filtered out, and the data is modeled as the pre-processing result.
  • the automated pre-processed data can be modeled, such as decision tree, naive Bayes, neural network, logistic regression, etc.; the generated model is evaluated, the statistics are calculated, and The statistical evaluation of the model is performed, and finally the final model is output as a calculation model for the model deployment.
  • the preset preprocessing method knowledge base stores all preprocessing methods for preprocessing the characteristics of the original data, including missing value filling and abnormality.
  • Various preprocessing methods such as value processing, continuous value normalization, continuous value discretization, and discrete value merging. If the corresponding multiple parameters of each method take values, the method corresponds to multiple data processing category identifiers or conversion functions, where
  • Missing value padding usually includes methods such as neighborhood padding, median padding, and mode padding, such as filling in data for known user ages and occupations, but missing income, including: neighbor filling, the same income, and age-related income. Average, as the user's income; median fill, average the income of all other users as the user's income; the population fill, the most income value among all the people, as the user's income.
  • Abnormal value processing usually for discarding or modifying the outliers, filling in the missing values, the filling method is as above, and will not be described here.
  • the continuous value is normalized to a method of converting continuous data values, and the purpose is to unify the range of values of all values into a set interval.
  • Common methods for continuous value normalization are the standard fraction (Z value) and the min-max method.
  • Z value the standard fraction
  • the value range is [0,1].
  • Continuous value discretization is the conversion of values into a series of discrete ranges of values, with the goal of reducing the number of values to reduce the amount of computation and increasing the correlation of similar values.
  • Common methods of discretization include equal-width binning, equal-depth binning, and equal frequency binning. For example, suppose the user's income is a variable with a range of [0,100000], and all users may have 10,000 different values. In order to reduce the computational complexity, usually Discretize user revenue and divide it into 10-100 bins (value range) to reduce computational complexity and then calculate it.
  • Equal-frequency binning is similar to isometric binning, but specifies the number of values in each bin instead of binning. For example, if you specify 200 values in each bin, then a total of 50 bins are generated. Obviously, different continuous value discretization effects are different. Therefore, selecting the best method from a variety of pre-processing methods with multiple binning methods and multiple parameters is an important issue that needs to be addressed in the data preparation phase.
  • Discrete value merging can combine many discrete values in order to reduce the number of values to reduce the amount of computation and to improve the correlation of similar values.
  • Common merging methods are knowledge-based merging, frequency-based merging, and so on.
  • the knowledge-based merger assumes that the user's region is in units of cities, such as Guangzhou and Shenzhen, and can merge all the provinces belonging to Guangdong province based on the existing Chinese geography knowledge to generate province-by-province units.
  • Variables; frequency-based merging can combine similar frequencies according to the frequency of occurrence of discrete values, such as 10000 times or more as a class, 5000-10000 times as a class, and 1000-5000 as a class.
  • the data processing method in the data modeling provided by the embodiment of the present invention is used to process the original data in Table 2.
  • the specific process includes:
  • the corresponding data processing category identifier is determined, that is, the missing value of the feature "call duration” is filled, the median padding is selected, and the feature "age” is subjected to the equal-width bin of the parameter 10, if the age span For 1-50, 5 features - “age 1-10", “age 11-20”, “age 21-30”, “age 31-40” and “age 41-50” are generated.
  • the combined feature column is subjected to one-hot coding to generate an extended feature set.
  • only the features of the age are coded, and other features are not described herein, as shown in Table 6:
  • the extended feature set is randomly sampled by row, and is divided into a training set and a verification set according to a ratio, respectively, according to each regularization coefficient of the preset plurality of regularization coefficients, such as 0.01, 0.05, 0.1, 0.2, for the training set Perform logistic regression training to get the corresponding logistic regression function.
  • the target characteristics such as “region” or “package fee”
  • the accuracy coefficient is the accuracy rate; if the target feature is “package fee” and belongs to the continuous feature, the accuracy coefficient is the reciprocal of the sum of squared errors.
  • the coefficient is used as the target regularization coefficient, such as 0.1.
  • Selecting the feature whose correlation coefficient meets the set condition as an important feature may include the following two methods:
  • the first way selecting a feature whose correlation coefficient is greater than a threshold of a correlation coefficient (such as 0.3) is selected as an important feature;
  • each feature is sorted according to the correlation coefficient from large to small, and the feature set before the selection (such as 3) is selected as an important feature.
  • the data processing results are data modeled to obtain the final data model.
  • the present invention further provides a data processing apparatus in data modeling.
  • the apparatus includes:
  • the reading unit 301 is configured to read the original data and the preset plurality of data processing category identifiers, wherein each of the data columns corresponds to one feature;
  • the processing unit 302 is configured to identify a data conversion function corresponding to each data processing category, and perform data conversion on the data column corresponding to each feature in the original data to generate a corresponding extended feature column, and corresponding all the features in the original data. Expanding feature columns to combine to generate an extended feature set;
  • a determining unit 303 configured to determine a correlation coefficient of each feature in the extended feature set
  • the first selecting unit 304 is configured to select a feature whose correlation coefficient meets the set condition as an important feature
  • the second selecting unit 305 is configured to filter out data columns corresponding to the important features in the extended feature set.
  • the processing unit 302 is configured to: when performing data conversion on the data column corresponding to any feature in the original data to generate a corresponding extended feature column, specifically:
  • the extended feature corresponding to all target data processing category identifiers is used as an extended feature column of any of the features.
  • the processing unit 302 when filtering the target data processing category corresponding to any one of the plurality of data processing category identifiers according to the data column corresponding to the any feature, is specifically used to:
  • the processing unit 302 When the processing unit 302 combines the extended feature columns corresponding to all the features in the original data to generate the extended feature set, the processing unit 302 is specifically configured to:
  • the extended feature columns corresponding to all the features in the original data are combined, and each data column in the combined extended feature columns is subjected to one-hot encoding by one heat to generate an extended feature set.
  • the processing unit 302 performs one-hot encoding on each data column in the combined extended feature column to generate an extended feature set, and is further used to:
  • the determining unit 303 is specifically configured to:
  • a correlation coefficient for each feature in the extended feature set is determined according to a target logistic regression function.
  • the determining unit 303 is specifically configured to: when acquiring the target regularization coefficient:
  • the determining unit 303 filters out the target among the preset plurality of regularization coefficients based on the extended feature set When the regularization coefficient is used, it is specifically used to:
  • the determining unit 303 performs logistic regression training on the extended feature set according to each of the preset regularization coefficients, and obtains a corresponding logistic regression function, which is specifically used for:
  • Logistic regression training is performed on the training set according to each of the preset regularization coefficients, and the corresponding logistic regression function is obtained.
  • the determining unit 303 is specifically configured to: when determining the target regularization coefficient according to the logistic regression function corresponding to each regularization coefficient:
  • Data in the extended feature set other than the training set is used as a verification set
  • the corresponding logistic regression function with the highest accuracy coefficient is selected, and the regularization coefficient corresponding to the selected logistic regression function is used as the target regularization coefficient.
  • the accuracy coefficient is any one of the following: an accuracy rate, a recall rate, an F value, and an area AUC under the receiver operating characteristic curve; when the target feature is a continuous feature, The accuracy factor is the reciprocal of the sum of squared errors.
  • the determining unit 303 is specifically configured to: when determining the correlation coefficient of each feature in the extended feature set according to the target logistic regression function:
  • the weight corresponding to each feature in the target logistic regression function is taken as the correlation coefficient corresponding to each feature.
  • the first selecting unit 304 is specifically configured to:
  • Each feature is sorted according to the correlation coefficient from large to small, and the number of features before the selection is selected as an important feature.
  • the method identifies the corresponding data conversion function according to a preset data processing category, and is used in the read original data.
  • the data column corresponding to each feature is transformed into a corresponding extended feature column, and the extended feature columns corresponding to all features in the original data are combined to generate an extended feature set; the correlation coefficient of each feature in the extended feature set is determined;
  • the feature whose correlation coefficient meets the set condition is an important feature, and the data column corresponding to the important feature is selected in the extended feature set.
  • embodiments of the present invention can be provided as a method, system, or computer program product. Accordingly, the present invention may take the form of an entirely hardware embodiment, an entirely software embodiment, or a combination of software and hardware. Moreover, the invention can take the form of a computer program product embodied on one or more computer-usable storage media (including but not limited to disk storage, CD-ROM, optical storage, etc.) including computer usable program code.
  • computer-usable storage media including but not limited to disk storage, CD-ROM, optical storage, etc.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the apparatus implements the functions specified in one or more blocks of a flow or a flow and/or block diagram of the flowchart.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device.
  • the instructions provide steps for implementing the functions specified in one or more of the flow or in a block or blocks of a flow diagram.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据建模中的数据处理方法及装置,用以解决现有技术中,原始数据的预处理流程存在的计算量大,计算时间长,浪费计算资源,降低工作效率的问题。该方法为:根据预设的数据处理类别标识对应的数据转换函数,对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集(202);确定扩展特征集中每个特征的相关性系数(203);选择相关性系数符合设定条件的特征作为重要特征(204),在扩展特征集中筛选出重要特征对应的数据列(205)。这样,避免通过穷举数据预处理方法进行数据建模造成的消耗时间长,计算量大的问题,提高了计算效率,提高了自动化数据建模的灵活性和适应性。

Description

一种数据建模中的数据处理方法及装置
本申请要求于2014年12月23日提交中国专利局、申请号为201410814222.7,发明名称为“一种数据建模中的数据处理方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据建模中的数据处理方法及装置。
背景技术
数据挖掘是数据库知识发现中的其中一个步骤,是从大量数据中寻找隐藏的关系提取出有价值的信息。通常,数据挖掘中会结合数据库技术、统计学、在线分析处理、机器学习领域的方法和技术,从不同的角度对数据进行处理。
数据挖掘的具体流程包括以下步骤:业务理解、数据理解、数据准备、建立模型、模型评估以及模型部署。
在数据准备过程中,需要将获取的原始数据进行预处理。原始数据为保存在数据库或者数据仓库中的宽表数据,参阅表1所示,原始数据包括缺失值(如李XX的年龄)、异常值(张XX的年龄和通话时长),还包括连续值(年龄列、套餐费列、通话时长列)和离散值(性别、地区、是否离网),原始数据中的每一列称为一个特征,在实际应用中,可以根据训练不同的需要,选择不同的特征作为目标特征。
表1原始数据表
Figure PCTCN2015086868-appb-000001
Figure PCTCN2015086868-appb-000002
在针对原始数据的特征进行预处理过程中,包括缺失值填充、异常值处理、连续值标准化、连续值离散化、离散值合并操作等方法。
数据准备过程中,对原始数据进行预处理是数据挖掘、数据建模流程中非常重要的步骤,预处理可以将原始数据转化为适合数据建模算法的训练数据集,更为重要的是,预处理的结果直接影响数据挖掘和数据建模的效果。然而在传统数据挖掘中,数据准备通常是由数据挖掘领域专家进行,不仅对建模人员的技术要求高,而且预处理过程需要人工参与,效率较低,耗时长,且对数据预处理的流程不具有复用性。
目前,通常采用网格搜索进行原始数据预处理,在使用网格搜索进行数据预处理时,需要设置所有预处理的方法以及每个方法的参数配置,如在连续值离散化具体包括等宽分箱、等深分箱、等频率分箱等方法,等宽分箱方法的参数可以为10,50或100等;根据不同的预处理方法以及参数值的不同,划分为一系列网格,每个网格对应一种预处理方法的组合,称为一个预处理方案;依次对每个网格中的点进行计算;分别将每次计算输出的数据结果作为训练数据进行模型训练,训练完成后,对模型的效果进行评估,生成对应每个网格的评价指标,筛选出评价指标最优的网格对应的结果为最终结果。
采用网格搜索需要穷举所有可行的预处理方案,并对每个方案的预处理结果进行建模,得到最终的数据预处理方案。显然,对原始数据进行预处理的方法很多,每个方法可能对应不同的参数值,因此,组合生成的预处理方案较多,复杂度和数量成指数关系,计算量大,并且评估每一个预处理方案的时候均需要进行完整的数据建模流程,数据建模流程计算时间长,重复建模计算量大,增加了计算机的运行负载,浪费计算资源,降低了计算机的工作效率。
发明内容
本发明实施例提供一种数据建模中的数据处理方法及装置,用以解决现有技术中原始数据预处理流程存在的计算时间长,计算量大,增加计算机运行负载,浪费计算资源,降低计算机工作效率的问题。
本发明实施例提供的具体技术方案如下:
第一方面,一种数据建模中的数据处理方法,包括:
读取原始数据以及预设的多个数据处理类别标识,其中,所述原始数据中的每一个数据列均对应一个特征;
根据各个数据处理类别标识分别对应的数据转换函数,对所述原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;
确定所述扩展特征集中每个特征的相关性系数;
选择相关性系数符合设定条件的特征作为重要特征;
在所述扩展特征集中筛选出所述重要特征对应的数据列。
结合第一方面,在第一种可能的实现方式中,对所述原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列,包括:
根据所述任一特征对应的数据列,在所述多个数据处理类别标识中,筛选出与所述任一特征相对应的目标数据处理类别标识;
分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对所述任一特征对应的数据列进行数据转换,生成所述每一个目标数据处理类别标识对应的扩展特征;
将所有目标数据处理类别标识对应的扩展特征作为所述任一特征的扩展特征列。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,根据所述任一特征对应的数据列,在所述多个数据处理类别标识中,筛选出与所述任一特征相对应的目标数据处理类别,包括:
根据所述任一特征对应的数据列,确定所述任一特征的数据类型,在所述多个数据处理类别标识中,筛选出与所述数据类型相对应的目标数据处理类别标识,其中,所述数据类型包括离散类型、连续类型;或/和
根据所述任一特征对应的数据列,确定所述任一特征的数据缺陷类型,在所述多个数据处理类别标识中,筛选出与所述数据缺陷类型相对应的目标数据处理类别标识,其中,所述数据缺陷类型包括缺失值、异常值。
结合第一方面或第一方面的以上任一种可能的实现方式,在第三种可能的实现方式中,将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集,包括:
将所述原始数据中的所有特征对应的扩展特征列进行组合,并对组合后的扩展特征列中的每个数据列进行独热one-hot编码,生成扩展特征集。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,对组合后的扩展特征列中的每个数据列进行one-hot编码,生成扩展特征集后,还包括:
对所述扩展特征集中的任意两个数据列进行逻辑与运算,得到新的数据列添加至扩展特征集。
结合第一方面或第一方面的以上任一种可能的实现方式,在第五种可能的是实现方式中,确定所述扩展特征集中每个特征的相关性系数,包括:
获取目标正则化系数,基于所述目标正则化系数对所述扩展特征集进行逻辑回归训练,得到对应的目标逻辑回归函数;
根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,获取目标正则化系数,包括:
获取预设的目标正则化系数;或
获取预设的多个正则化系数,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数。
结合第一方面中的第六种可能的实现方式,在第七种可能的实现方式中,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数,具体包括:
分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数;根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数;或者
分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行线性支持向量机运算,得到对应的支持向量函数;根据每个正则化系数对应的支持向量函数,确定目标正则化系数。
结合第一方面的第七种可能的实现方式,在第八种可能的实现方式中,分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数,包括:
对所述扩展特征集按照设定比例进行抽样,得到训练集;
分别根据预设的所述多个正则化系数中的每个正则化系数,对所述训练集进行逻辑回归训练,得到对应的逻辑回归函数。
结合第一方面的第八种可能的实现方式,在第九种可能的实现方式中,根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数,包括:
将所述扩展特征集中除训练集以外的数据作为验证集;
在所述验证集中的所有特征中确定目标特征;
分别计算每一个正则化系数对应的逻辑回归函数针对所述验证集中目标特征的准确系数;
筛选出对应的准确系数最高的逻辑回归函数,并将筛选出的逻辑回归函数对应的正则化系数作为目标正则化系数。
结合第一方面的第九种可能的实现方式,在第十种可能的实现方式中,当目标特征为分类特征时,所述准确系数为以下任意一项:准确率、召回率、F值,以及处于受试者工作特征曲线下方的面积AUC;当目标特征为连续特征时,所述准确系数为平均误差平方和的倒数。
结合第一方面中的第五至第十中任一种可能的实现方式,在第十一种可能的实现方式中,根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数,包括:
将所述目标逻辑回归函数中每个特征对应的权重,作为所述每个特征对应的相关性系数。
结合第一方面的或第一方面的以上任一种可能的实现方式,在第十二种可能的实现方式中,选择相关性系数符合设定条件的特征作为重要特征,包括:
选择相关性系数大于设定相关性系数阈值的特征作为重要特征;或
按照相关性系数从大到小对每个特征进行排序,选择前设定个数的特征作为重要特征。
第二方面,一种数据建模中的数据处理装置,包括:
读取单元,用于读取原始数据以及预设的多个数据处理类别标识,其中,所述原始数据中的每一个数据列均对应一个特征;
处理单元,用于根据各个数据处理类别标识分别对应的数据转换函数,对所述原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;
确定单元,用于确定所述扩展特征集中每个特征的相关性系数;
第一选择单元,用于选择相关性系数符合设定条件的特征作为重要特征;
第二选择单元,用于在所述扩展特征集中筛选出所述重要特征对应的数据列。
结合第二方面,在第一种可能的实现方式中,所述处理单元在对所述原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列时,具体用于:
根据所述任一特征对应的数据列,在所述多个数据处理类别标识中,筛选出与所述任一特征相对应的目标数据处理类别标识;
分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对所述任一特征对应的数据列进行数据转换,生成所述每一个目标数据处理类别标识 对应的扩展特征;
将所有目标数据处理类别标识对应的扩展特征作为所述任一特征的扩展特征列。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述处理单元在根据所述任一特征对应的数据列,在所述多个数据处理类别标识中,筛选出与所述任一特征相对应的目标数据处理类别时,具体用于:
根据所述任一特征对应的数据列,确定所述任一特征的数据类型,在所述多个数据处理类别标识中,筛选出与所述数据类型相对应的目标数据处理类别标识,其中,所述数据类型包括离散类型、连续类型;或/和
根据所述任一特征对应的数据列,确定所述任一特征的数据缺陷类型,在所述多个数据处理类别标识中,筛选出与所述数据缺陷类型相对应的目标数据处理类别标识,其中,所述数据缺陷类型包括缺失值、异常值。
结合第二方面或第二方面的以上任一种可能的实现方式,在第三种可能的实现方式中,所述处理单元在将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集时,具体用于:
将所述原始数据中的所有特征对应的扩展特征列进行组合,并对组合后的扩展特征列中的每个数据列进行独热one-hot编码,生成扩展特征集。
结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述处理单元在对组合后的扩展特征列中的每个数据列进行one-hot编码,生成扩展特征集后,还用于:
对所述扩展特征集中的任意两个数据列进行逻辑与运算,得到新的数据列添加至扩展特征集。
结合第二方面或第二方面的以上任一种可能的实现方式,在第五种可能的是实现方式中,所述确定单元,具体用于:
获取目标正则化系数,基于所述目标正则化系数对所述扩展特征集进行逻辑回归训练,得到对应的目标逻辑回归函数;
根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系 数。
结合第二方面的第五种可能的实现方式,在第六种可能的实现方式中,所述确定单元在获取目标正则化系数时,具体用于:
获取预设的目标正则化系数;或
获取预设的多个正则化系数,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数。
结合第二方面中的第六种可能的实现方式,在第七种可能的实现方式中,所述确定单元在基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数时,具体用于:
分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数;根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数;或者
分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行线性支持向量机运算,得到对应的支持向量函数;根据每个正则化系数对应的支持向量函数,确定目标正则化系数。
结合第二方面的第七种可能的实现方式,在第八种可能的实现方式中,所述确定单元在分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数时,具体用于:
对所述扩展特征集按照设定比例进行抽样,得到训练集;
分别根据预设的所述多个正则化系数中的每个正则化系数,对所述训练集进行逻辑回归训练,得到对应的逻辑回归函数。
结合第二方面的第八种可能的实现方式,在第九种可能的实现方式中,所述确定单元在根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数时,具体用于:
将所述扩展特征集中除训练集以外的数据作为验证集;
在所述验证集中的所有特征中确定目标特征;
分别计算每一个正则化系数对应的逻辑回归函数针对所述验证集中目标特 征的准确系数;
筛选出对应的准确系数最高的逻辑回归函数,并将筛选出的逻辑回归函数对应的正则化系数作为目标正则化系数。
结合第二方面的第九种可能的实现方式,在第十种可能的实现方式中,当目标特征为分类特征时,所述准确系数为以下任意一项:准确率、召回率、F值,以及处于受试者工作特征曲线下方的面积AUC;当目标特征为连续特征时,所述准确系数为平均误差平方和的倒数。
结合第二方面中的第五至第十中任一种可能的实现方式,在第十一种可能的实现方式中,所述确定单元在根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数时,具体用于:
将所述目标逻辑回归函数中每个特征对应的权重,作为所述每个特征对应的相关性系数。
结合第二方面的或第二方面的以上任一种可能的实现方式,在第十二种可能的实现方式中,所述第一选择单元,具体用于:
选择相关性系数大于设定相关性系数阈值的特征作为重要特征;或
按照相关性系数从大到小对每个特征进行排序,选择前设定个数的特征作为重要特征。
采用本发明技术方案,通过根据预设的数据处理类别标识对应的数据转换函数,对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;确定扩展特征集中每个特征的相关性系数;选择相关性系数符合设定条件的特征作为重要特征,在扩展特征集中筛选出重要特征对应的数据列。通过扩展特征的方式降低了评估多种数据预处理方法的计算量,避免进行通过穷举数据预处理方法进行数据建模造成的消耗时间长,计算量大的问题,提高了计算效率,通过相关性排序选择重要特征,可以控制特征的数量,减少了数据建模时的输入数据量,以及计算机的计算量,也使数据预处理结果适应多种数据建模算法,提高了自动化数据建模的灵活性和适应性。
附图说明
图1为本发明实施例提供的一种终端设备结构示意图;
图2为本发明实施例提供的一种数据建模中的数据处理方法的具体流程图;
图3为本发明实施例提供的一种数据建模中的数据处理装置的结构示意图。
具体实施方式
采用本发明提供的数据建模中的数据处理方法,通过根据预设的数据处理类别标识对应的数据转换函数,对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;确定扩展特征集中每个特征的相关性系数;选择相关性系数符合设定条件的特征作为重要特征,在扩展特征集中筛选出重要特征对应的数据列。通过扩展特征的方式降低了评估多种数据预处理方法的计算量,避免进行通过穷举数据预处理方法进行数据建模造成的消耗时间长,计算量大的问题,提高了计算效率,通过相关性排序选择重要特征,可以控制特征的数量,减少了数据建模时的输入数据量,以及计算机的计算量,也使数据预处理结果适应多种数据建模算法,提高了自动化数据建模的灵活性和适应性。
本发明实施例提供了一种数据建模中的数据处理方法,应用于实现数据建模和数据挖掘的各种终端设备,如计算机、服务器等。下面结合附图对本发明优选的实施方式进行详细说明。
本发明实施例提供了一种实现数据建模中的数据处理方法的终端设备,该终端为携带各类应用的计算机等设备。参阅图1所示,该设备包括:收发器101、处理器102、总线103以及存储器104,其中:
收发器101、处理器102以及存储器104通过总线103相互连接;总线103可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线 等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
收发器101用于获取原始数据,并将最后数据处理得到的结果——重要特征对应的数据列输出等。
处理器102用于实现本发明实施例图2所示的数据建模中的数据处理方法,包括:
读取原始数据以及预设的多个数据处理类别标识,其中,原始数据中的每一个数据列均对应一个特征;
根据各个数据处理类别标识分别对应的数据转换函数,对原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;
确定扩展特征集中每个特征的相关性系数;
选择相关性系数符合设定条件的特征作为重要特征;
在扩展特征集中筛选出重要特征对应的数据列。
可选的,对原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列,包括:
根据该任一特征对应的数据列,在多个数据处理类别标识中,筛选出与该任一特征相对应的目标数据处理类别标识;
分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对该任一特征对应的数据列进行数据转换,生成每一个目标数据处理类别标识对应的扩展特征;
将所有目标数据处理类别标识对应的扩展特征作为该任一特征的扩展特征列。
可选的,根据该任一特征对应的数据列,在多个数据处理类别标识中,筛选出与该任一特征相对应的目标数据处理类别,包括:
根据该任一特征对应的数据列,确定该任一特征的数据类型,在多个数据处理类别标识中,筛选出与数据类型相对应的目标数据处理类别标识,其中, 数据类型包括离散类型、连续类型;或/和
根据该任一特征对应的数据列,确定该任一特征的数据缺陷类型,在多个数据处理类别标识中,筛选出与数据缺陷类型相对应的目标数据处理类别标识,其中,数据缺陷类型包括缺失值、异常值。
可选的,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集,包括:
将原始数据中的所有特征对应的扩展特征列进行组合,并对组合后的扩展特征列中的每个数据列进行独热one-hot编码,生成扩展特征集。
可选的,对组合后的扩展特征列中的每个数据列进行one-hot编码,生成扩展特征集后,还包括:
对扩展特征集中的任意两个数据列进行逻辑与运算,得到新的数据列添加至扩展特征集。
可选的,确定扩展特征集中每个特征的相关性系数,包括:
获取目标正则化系数,基于目标正则化系数对扩展特征集进行逻辑回归训练,得到对应的目标逻辑回归函数;
根据目标逻辑回归函数确定扩展特征集中每个特征的相关性系数。
可选的,获取目标正则化系数,包括:
获取预设的目标正则化系数;或
获取预设的多个正则化系数,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数。
可选的,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数,具体包括:
分别根据预设的多个正则化系数中的每个正则化系数,对扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数;根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数;或者
分别根据预设的多个正则化系数中的每个正则化系数,对扩展特征集进行线性支持向量机运算,得到对应的支持向量函数;根据每个正则化系数对应的 支持向量函数,确定目标正则化系数。
可选的,分别根据预设的多个正则化系数中的每个正则化系数,对扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数,包括:
对扩展特征集按照设定比例进行抽样,得到训练集;
分别根据预设的多个正则化系数中的每个正则化系数,对训练集进行逻辑回归训练,得到对应的逻辑回归函数。
可选的,根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数,包括:
将扩展特征集中除训练集以外的数据作为验证集;
在验证集中的所有特征中确定目标特征;
分别计算每一个正则化系数对应的逻辑回归函数针对验证集中目标特征的准确系数;
筛选出对应的准确系数最高的逻辑回归函数,并将筛选出的逻辑回归函数对应的正则化系数作为目标正则化系数。
可选的,当目标特征为分类特征时,准确系数为以下任意一项:准确率、召回率、F值,以及处于受试者工作特征曲线下方的面积AUC;当目标特征为连续特征时,准确系数为平均误差平方和的倒数。
可选的,根据目标逻辑回归函数确定扩展特征集中每个特征的相关性系数,包括:
将目标逻辑回归函数中每个特征对应的权重,作为每个特征对应的相关性系数。
可选的,选择相关性系数符合设定条件的特征作为重要特征,包括:
选择相关性系数大于设定相关性系数阈值的特征作为重要特征;或
按照相关性系数从大到小对每个特征进行排序,选择前设定个数的特征作为重要特征。
该终端设备100还包括存储器104,用于存放程序,数据处理类别标识和对应的数据转换函数、原始数据以及原始数据生成的扩展特征集等。具体地, 程序可以包括程序代码,该程序代码包括计算机操作指令。存储器104可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。处理器102执行存储器104所存放的应用程序,实现如上数据建模中的数据处理方法。
参阅图2所示,本发明实施例提供的一种数据建模中的数据处理方法的具体处理流程包括:
步骤201:读取原始数据以及预设的多个数据处理类别标识,其中,原始数据中的每一个数据列均对应一个特征。
具体的,在执行步骤201时,可以从本地的数据库或数据仓库中读取原始数据,或者直接从服务器或其他存储设备中读取原始数据,原始数据为如表1中的宽表数据,其中每一个数据列均对应一个特征。
预设的多个数据处理类别标识保存在预处理方法知识库中,每一个数据处理类别标识对应一个转换函数,即包含具体参数的预处理方法,如参数为10的等宽分箱,或参数为50的等宽分箱,或缺失值填充为近邻填充。
步骤202:根据各个数据处理类别标识分别对应的数据转换函数,对原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将该原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集。
具体的,对原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列,包括:
根据该任一特征对应的数据列,在多个数据处理类别标识中,筛选出与该任一特征相对应的目标数据处理类别标识;
分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对该任一特征对应的数据列进行数据转换,生成每一个目标数据处理类别标识对应的扩展特征;
将所有目标数据处理类别标识对应的扩展特征作为该任一特征的扩展特征列。
其中,根据该任一特征对应的数据列,在多个数据处理类别标识中,筛选 出与该任一特征相对应的目标数据处理类别,包括:
根据该任一特征对应的数据列,确定该任一特征的数据类型,在多个数据处理类别标识中,筛选出与该数据类型相对应的目标数据处理类别标识,其中,数据类型包括离散类型、连续类型;或/和
根据该任一特征对应的数据列,确定该任一特征的数据缺陷类型,在多个数据处理类别标识中,筛选出与该数据缺陷类型相对应的目标数据处理类别标识,其中,数据缺陷类型包括缺失值、异常值。
例如,确定该任一特征——收入,对应的数据为连续值,且确定该特征中有缺失值,则根据该特征的数据类型,确定对应的目标数据处理类别标识包括:连续值标准化中参数取值为10、50和100等宽分箱,以及参数取值为50和100的等深分箱,还包括缺失值填充的近邻填充和众数填充,因此,该特征对应目标数据处理类别标识包括7个;
分别根据确定的每个目标数据处理类别标识对应的数据转化函数对该特征的对应的数据进行转换,生成对应的扩展特征;其中,每个扩展特征对应的数据列数量不同,例如,近邻填充和众数填充,对应的扩展特征为一个数据列,而对于等宽分箱和等深分箱,生成的数据列根据拆分的箱的个数不同而不同。
将所有目标数据处理类别标识对应的扩展特征作为该特征的扩展特征列,因此,原始数据中的该特征为一个数据列,根据7个转换函数转换为7个不同的扩展特征,这7个扩展特征称为该特征的扩展特征列。
对原始数据中的每个特征对应的数据进行数据转换均生成对应的扩展特征列,这些扩展特征列组合称为扩展特征集。
具体的,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集,包括:
将原始数据中的所有特征对应的扩展特征列进行组合,并对组合后的扩展特征列中的每个数据列进行独热one-hot编码,生成扩展特征集。
对组合后的扩展特征列中的每个数据列进行one-hot编码,每个数据的取值变为0或1,使生成的扩展特征集的数据取值进行简化,提高对扩展特征集的 处理速度。
在得到扩展特征集后,还包括:
对该扩展特征集中的任意两个数据列进行逻辑与运算,得到新的数据列添加至扩展特征集。
将one-hot编码后的两个数据列进行逻辑与运算,得到高阶的扩展特征,再将该高阶的扩展特征添加至扩展特征集,这样,可以准确地计算两个特征的相关性。
步骤203:确定扩展特征集中每个特征的相关性系数。
具体的,执行步骤203包括以下步骤:
获取目标正则化系数,对该扩展特征集进行逻辑回归训练,得到对应的目标逻辑回归函数;
根据目标逻辑回归函数确定该扩展特征集中每个特征的相关性系数。
具体的,获取目标正则化系数,包括以下两种方式:
第一种方式:获取预设的目标正则化系数;
第二种方式:获取预设的多个正则化系数,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数。
具体的,在第二种方式中,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数,包括两种方法:
第一种方法:分别根据预设的多个正则化系数中的每个正则化系数,对该扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数;再根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数;
第二种方法:分别根据预设的多个正则化系数中的每个正则化系数,对该扩展特征集进行线性支持向量机运算,得到对应的支持向量函数;根据每个正则化系数对应的支持向量函数,确定目标正则化系数。
在第一种方法中,分别根据预设的多个正则化系数中的每个正则化系数,对该扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数,包括:
对该扩展特征集按照设定比例进行抽样,得到训练集;
分别根据预设的多个正则化系数中的每个正则化系数,对该训练集进行逻辑回归训练,得到对应的逻辑回归函数。
对扩展特征集进行按行随机采样,将扩展特征集按照比例分为训练集和验证集,例如常见的70:30或者80:20,本发明实施不做具体限定。分别选择预设定的多个正则化系数中的一个,例如0.01,0.05,0.1,0.2;以训练集为输入样本,针对每个lambda进行L1范数或者L2范数的逻辑回归训练,设定迭代的次数或者收敛的错误范围,进行随机梯度下降的逻辑回归迭代计算,在达到迭代次数或者收敛的错误范围时停止迭代,得到训练出的逻辑回归函数。
逻辑回归训练得到的逻辑回归函数,例如:f(x)=0.5*“年龄20-30”+0.35*“性别男”+0.45*“地区北京”...
具体的,根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数,包括:
将扩展特征集中除训练集以外的数据作为验证集;
在该验证集中的所有特征中确定目标特征;
分别计算每一个正则化系数对应的逻辑回归函数针对所述验证集中目标特征的准确系数;
筛选出对应的准确系数最高的逻辑回归函数,并将筛选出的逻辑回归函数对应的正则化系数作为目标正则化系数。
在第二种方法中,与第一种方法类似,分别根据预设的多个正则化系数中的每个正则化系数,对该扩展特征集进行线性支持向量机运算,得到对应的支持向量函数,包括:
对该扩展特征集按照设定比例进行抽样,得到训练集;
分别根据预设的多个正则化系数中的每个正则化系数,对该训练集进行线性支持向量机运算,得到对应的支持向量函数。
根据每个正则化系数对应的支持向量函数,确定目标正则化系数,包括:
将该扩展特征集中除训练集以外的数据作为验证集;
在该验证集中的所有特征中确定目标特征;
分别计算每一个正则化系数对应的支持向量函数针对该验证集中目标特征的准确系数;
筛选出对应的准确系数最高的支持向量函数,并将筛选出的支持向量函数对应的正则化系数作为目标正则化系数。
在第二种方法中得到的支持向量函数与第一种方法中的逻辑回归函数的结构相同,均为f(x)=0.5*“年龄20-30”+0.35*“性别男”+0.45*“地区北京”...的形式。
其中,当目标特征为分类特征时,该准确系数为以下任意一项:准确率、召回率、F值,以及处于受试者工作特征曲线下方的面积(Area Under roc Curver,AUC);当目标特征为连续特征时,该准确系数为平均误差平方和的倒数。
确定目标特征为分类特征后,分别将验证集中每行除目标特征对应的数据以外的数据带入逻辑回归函数,验证得到的结果与该目标特征对应的数据是否相同,准确率为结果相同的行数与验证集所有行数的比例;
确定目标特征未连续特征时,同样地,分别将验证集中每行出目标特征对应的数据以外的数据代入逻辑回归函数,计算验证得到的结果与目标特征对应的数据的平均误差平方和,将平均误差平方和的倒数作为准确系数。
具体的,根据该目标逻辑回归函数确定该扩展特征集中每个特征的相关性系数,包括:
将该目标逻辑回归函数中每个特征对应的权重,作为该每个特征对应的相关性系数。
步骤204:选择相关性系数符合设定条件的特征作为重要特征。
具体的,执行步骤204时包括两种方式:
第一种方式:选择相关性系数大于设定相关性系数阈值的特征作为重要特征;
第二种方式:按照相关性系数从大到小对每个特征进行排序,选择前设定个数的特征作为重要特征。
步骤205:在该扩展特征集中筛选出该重要特征对应的数据列。
基于选择的重要特征,对之前生成的扩展特征集进行过滤,只筛选出重要特征对应的数据列,作为预处理结果,然后对预处理结果进行数据建模。
根据数据挖掘流程,对经过自动化预处理的数据进行建模,可以选择多种算法,如决策树、朴素贝叶斯、神经网络、逻辑回归等;对生成的模型进行评估,计算统计量,给出模型的统计评估,最后输出最终模型,作为模型部署的计算模型。
其中,在本发明实施例提供的数据建模中的数据处理方法中,预设的预处理方法知识库中保存有对原始数据的特征进行预处理的所有预处理方法,包括缺失值填充、异常值处理、连续值标准化、连续值离散化、离散值合并等各种预处理方法。每个方法的对应多个参数取值,则该方法对应多个数据处理类别标识或转换函数,其中,
缺失值填充通常包括近邻填充、中值填充、众数填充等方法,如对已知用户年龄和职业,但是缺失收入的数据进行填充,包括:近邻填充,将其他职业相同,且年龄相近的收入进行平均,作为该用户的收入;中值填充,将所有其他用户的收入求平均值,作为该用户的收入;众数填充,将所有人中出现最多的收入值,作为该用户的收入。
异常值处理,通常为对异常值丢弃或修改,在进行缺失值填充,填充方法如上,此处不再赘述。
连续值标准化为一种对连续型数据数值的转换方法,目的是将所有数值的取值范围统一到设定的区间内。常见的连续值标准化的方法有标准分数(Z值)和min-max方法。其中,标准分数的计算公式是z=(x-平均值)/标准差,经过转换的数值平均值为0;min-max方法的计算公式是x-min/(max-min),经过转换的数值取值范围为[0,1]。
连续值离散化是将数值转化为一系列离散的取值范围,目的是减少取值个数以减少计算量,以及提高相近数值的相关性。常见的离散化方法有等宽分箱、等深分箱、等频率分箱等方法。例如,假设用户的收入是取值范围[0,100000]的变量,所有用户可能会有10000种不同的取值,为了降低计算复杂度,通常 将用户收入进行离散化,分成10-100个箱(取值范围)以降低计算复杂度,然后对其进行计算。其中,等宽分箱中每个箱(区间)大小相同,例如将[0,100000]分成100个箱,则第一个箱是[0,1000),第二个箱是[1000,2000),以此类推,每个箱的大小为100000/100=1000;如果分成50个箱,则第一个箱是[0,2000),第二个箱是[2000,4000);等深分箱则使每个箱中的取值个数相等,例如指定100个箱,则从小到大进行分箱,使第一个箱中有100个值,第二个箱中也有100个值,依次类推。等频率分箱和等深分箱类似,但是指定每个箱中取值的个数而不是分箱个数,例如指定每个箱中有200个值,则最后一共生成50个箱。显然,不同的连续值离散化效果不一样,因此,从多种多种分箱方式且多种参数的预处理方法中中选择最佳的方法,是数据准备阶段需要处理的重要问题。
离散值合并可以将许多离散的取值进行合并,目的是减少取值个数以减少计算量,以及提高相近取值的相关性。常见的合并方法有基于知识的合并、基于频率的合并等方法。其中,基于知识的合并,例如,假设用户的地区以城市为单位,例如广州市、深圳市,则可以基于现有的中国地理知识,将所有属于广东省的进行合并,生成以省为单位的变量;基于频率的合并可以根据离散值出现的频率,将类似频率的进行合并,比如出现10000次以上的作为一类,5000-10000次的作为一类,1000-5000的作为一类。
表2原始数据表
Figure PCTCN2015086868-appb-000003
以表2中的原始数据为例,使用以上本发明实施例提供的数据建模中的数据处理方法对表2中的原始数据进行处理,具体流程包括:
获取原始数据表2,以及所有预设的多个数据处理类别标识。
根据原始数据表2,确定对应的数据处理类别标识,即对特征“通话时长”的缺失值进行填充,选择中值填充,对特征“年龄”进行参数为10的等宽分箱,若年龄跨度为1-50,则生成5个特征——“年龄1-10”、“年龄11-20”、“年龄21-30”、“年龄31-40”以及“年龄41-50”。
根据所述数据处理类别标识对应的数据转换函数,对所述原始数据中的每个特征进行转换,生成对应的扩展特征列,在本实施例中,仅分别对原始数据中的特征“通话时长”和特征“年龄”进行数据转换,生成的对应的扩展特征列,如表3和表4所示。
表3“通话时长”对应的扩展特征列
通话时长
150
450
300
表4“年龄”对应的扩展特征列
Figure PCTCN2015086868-appb-000004
将原始数据中的所有特征对应的扩展特征列进行组合生成组合后的扩展特征列,如表5所示:
表5组合后的扩展特征列
Figure PCTCN2015086868-appb-000005
对组合后的扩展特征列进行one-hot编码,生成扩展特征集,本发明实施例中,仅以对年龄的各个特征进行编码说明,其它特征不在赘述,如表6所示:
表6one-hot编码后的扩展特征集
Figure PCTCN2015086868-appb-000006
对扩展特征集进行按行随机采样,按照比例分为训练集和验证集,分别根据预设的多个正则化系数中的每个正则化系数,如0.01,0.05,0.1,0.2,对训练集进行逻辑回归训练,得到对应的逻辑回归函数。
确定目标特征,如“地区”或“套餐费”,分别计算每一个正则化系数对应的逻辑回归函数针对验证集中目标特征的准确系数,若目标特征为“地区”,属于分类特征,则该准确系数为准确率;若目标特征为“套餐费”,属于连续特征,则该准确系数为平均误差平方和的倒数。
选择得到的准确系数最高的逻辑回归函数,将该逻辑回归函数对应的正则 化系数作为目标正则化系数,如0.1。
根据获取的目标正则化系数0.1,对整个扩展特征集进行逻辑回归训练,得到对应的目标逻辑回归函数,如,f(x)=0.5*“年龄21-30”+0.35*“性别男”+0.45*“地区北京”+0.05*“年龄1-10”...
根据该目标逻辑回归函数,确定扩展特征及中每个特征的相关性系数,即将目标逻辑回归函数中每个特征对应的权重,作为对应的相关性系数,并根据相关性系数的取值从大到小排序,如表7所示:
表7每个特征以及对应的相关性系数
Figure PCTCN2015086868-appb-000007
选择相关性系数符合设定条件的特征作为重要特征,可以包括以下两种方式:
第一种方式:选择相关性系数大于设定相关性系数阈值(如0.3)的特征作为重要特征;
第二种方式:按照相关性系数从大到小对每个特征进行排序,选择前设定个数(如3)的特征作为重要特征。
通过以上两种方式,可以确定重要特征为“年龄21-30”、“地区北京”、“性别男”。
在扩展特征集中筛选出重要特征——“年龄21-30”、“地区北京”、“性别男”对应的数据列,作为最终的数据处理结果,如表8所示。
表8数据处理结果
Figure PCTCN2015086868-appb-000008
根据数据挖掘的流程,对数据处理结果进行数据建模,得到最终的数据模型。
基于以上实施例,本发明还提供了一种数据建模中的数据处理装置,参阅图3所示,该装置包括:
读取单元301,用于读取原始数据以及预设的多个数据处理类别标识,其中,原始数据中的每一个数据列均对应一个特征;
处理单元302,用于根据各个数据处理类别标识分别对应的数据转换函数,对原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;
确定单元303,用于确定扩展特征集中每个特征的相关性系数;
第一选择单元304,用于选择相关性系数符合设定条件的特征作为重要特征;
第二选择单元305,用于在扩展特征集中筛选出重要特征对应的数据列。
处理单元302在对原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列时,具体用于:
根据该任一特征对应的数据列,在多个数据处理类别标识中,筛选出与该任一特征相对应的目标数据处理类别标识;
分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对该任一特征对应的数据列进行数据转换,生成每一个目标数据处理类别标识对应的扩展特征;
将所有目标数据处理类别标识对应的扩展特征作为该任一特征的扩展特征列。
处理单元302在根据该任一特征对应的数据列,在多个数据处理类别标识中,筛选出与该任一特征相对应的目标数据处理类别时,具体用于:
根据该任一特征对应的数据列,确定该任一特征的数据类型,在多个数据处理类别标识中,筛选出与数据类型相对应的目标数据处理类别标识,其中,数据类型包括离散类型、连续类型;或/和
根据该任一特征对应的数据列,确定该任一特征的数据缺陷类型,在多个数据处理类别标识中,筛选出与数据缺陷类型相对应的目标数据处理类别标识,其中,数据缺陷类型包括缺失值、异常值。
处理单元302在将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集时,具体用于:
将原始数据中的所有特征对应的扩展特征列进行组合,并对组合后的扩展特征列中的每个数据列进行独热one-hot编码,生成扩展特征集。
处理单元302在对组合后的扩展特征列中的每个数据列进行one-hot编码,生成扩展特征集后,还用于:
对扩展特征集中的任意两个数据列进行逻辑与运算,得到新的数据列添加至扩展特征集。
确定单元303,具体用于:
获取目标正则化系数,基于目标正则化系数对扩展特征集进行逻辑回归训练,得到对应的目标逻辑回归函数;
根据目标逻辑回归函数确定扩展特征集中每个特征的相关性系数。
确定单元303在获取目标正则化系数时,具体用于:
获取预设的目标正则化系数;或
获取预设的多个正则化系数,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数。
确定单元303在基于扩展特征集,在预设的多个正则化系数中筛选出目标 正则化系数时,具体用于:
分别根据预设的多个正则化系数中的每个正则化系数,对扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数;根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数;或者
分别根据预设的多个正则化系数中的每个正则化系数,对扩展特征集进行线性支持向量机运算,得到对应的支持向量函数;根据每个正则化系数对应的支持向量函数,确定目标正则化系数。
确定单元303在分别根据预设的多个正则化系数中的每个正则化系数,对扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数时,具体用于:
对扩展特征集按照设定比例进行抽样,得到训练集;
分别根据预设的多个正则化系数中的每个正则化系数,对训练集进行逻辑回归训练,得到对应的逻辑回归函数。
确定单元303在根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数时,具体用于:
将扩展特征集中除训练集以外的数据作为验证集;
在验证集中的所有特征中确定目标特征;
分别计算每一个正则化系数对应的逻辑回归函数针对验证集中目标特征的准确系数;
筛选出对应的准确系数最高的逻辑回归函数,并将筛选出的逻辑回归函数对应的正则化系数作为目标正则化系数。
可选的,当目标特征为分类特征时,准确系数为以下任意一项:准确率、召回率、F值,以及处于受试者工作特征曲线下方的面积AUC;当目标特征为连续特征时,准确系数为平均误差平方和的倒数。
确定单元303在根据目标逻辑回归函数确定扩展特征集中每个特征的相关性系数时,具体用于:
将目标逻辑回归函数中每个特征对应的权重,作为每个特征对应的相关性系数。
第一选择单元304,具体用于:
选择相关性系数大于设定相关性系数阈值的特征作为重要特征;或
按照相关性系数从大到小对每个特征进行排序,选择前设定个数的特征作为重要特征。
综上所述,通过本发明实施例中提供的一种数据建模中的数据处理方法及装置,该方法通过根据预设的数据处理类别标识对应的数据转换函数,对读取的原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;确定扩展特征集中每个特征的相关性系数;选择相关性系数符合设定条件的特征作为重要特征,在扩展特征集中筛选出重要特征对应的数据列。通过扩展特征的方式降低了评估多种数据预处理方法的计算量,避免进行通过穷举数据预处理方法进行数据建模造成的消耗时间长,计算量大的问题,提高了计算效率,通过相关性排序选择重要特征,可以控制特征的数量,减少了数据建模时的输入数据量,以及计算机的计算量,也使数据预处理结果适应多种数据建模算法,提高了自动化数据建模的灵活性和适应性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (26)

  1. 一种数据建模中的数据处理方法,其特征在于,包括:
    读取原始数据以及预设的多个数据处理类别标识,其中,所述原始数据中的每一个数据列均对应一个特征;
    根据各个数据处理类别标识分别对应的数据转换函数,对所述原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;
    确定所述扩展特征集中每个特征的相关性系数;
    选择相关性系数符合设定条件的特征作为重要特征;
    在所述扩展特征集中筛选出所述重要特征对应的数据列。
  2. 如权利要求1所述的方法,其特征在于,对所述原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列,包括:
    根据所述任一特征对应的数据列,在所述多个数据处理类别标识中,筛选出与所述任一特征相对应的目标数据处理类别标识;
    分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对所述任一特征对应的数据列进行数据转换,生成所述每一个目标数据处理类别标识对应的扩展特征;
    将所有目标数据处理类别标识对应的扩展特征作为所述任一特征的扩展特征列。
  3. 如权利要求2所述的方法,其特征在于,根据所述任一特征对应的数据列,在所述多个数据处理类别标识中,筛选出与所述任一特征相对应的目标数据处理类别,包括:
    根据所述任一特征对应的数据列,确定所述任一特征的数据类型,在所述多个数据处理类别标识中,筛选出与所述数据类型相对应的目标数据处理类别标识,其中,所述数据类型包括离散类型、连续类型;或/和
    根据所述任一特征对应的数据列,确定所述任一特征的数据缺陷类型,在 所述多个数据处理类别标识中,筛选出与所述数据缺陷类型相对应的目标数据处理类别标识,其中,所述数据缺陷类型包括缺失值、异常值。
  4. 如权利要求1-3任一项所述的方法,其特征在于,将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集,包括:
    将所述原始数据中的所有特征对应的扩展特征列进行组合,并对组合后的扩展特征列中的每个数据列进行独热one-hot编码,生成扩展特征集。
  5. 如权利要求4所述的方法,其特征在于,对组合后的扩展特征列中的每个数据列进行one-hot编码,生成扩展特征集后,还包括:
    对所述扩展特征集中的任意两个数据列进行逻辑与运算,得到新的数据列添加至扩展特征集。
  6. 如权利要求1-5任一项所述的方法,其特征在于,确定所述扩展特征集中每个特征的相关性系数,包括:
    获取目标正则化系数,基于所述目标正则化系数对所述扩展特征集进行逻辑回归训练,得到对应的目标逻辑回归函数;
    根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数。
  7. 如权利要求6所述的方法,其特征在于,获取目标正则化系数,包括:
    获取预设的目标正则化系数;或
    获取预设的多个正则化系数,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数。
  8. 如权利要求7所述的方法,其特征在于,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数,具体包括:
    分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数;根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数;或者
    分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行线性支持向量机运算,得到对应的支持向量函数;根据每个正则化系数对 应的支持向量函数,确定目标正则化系数。
  9. 如权利要求8所述的方法,其特征在于,分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数,包括:
    对所述扩展特征集按照设定比例进行抽样,得到训练集;
    分别根据预设的所述多个正则化系数中的每个正则化系数,对所述训练集进行逻辑回归训练,得到对应的逻辑回归函数。
  10. 如权利要求9所述的方法,其特征在于,根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数,包括:
    将所述扩展特征集中除训练集以外的数据作为验证集;
    在所述验证集中的所有特征中确定目标特征;
    分别计算每一个正则化系数对应的逻辑回归函数针对所述验证集中目标特征的准确系数;
    筛选出对应的准确系数最高的逻辑回归函数,并将筛选出的逻辑回归函数对应的正则化系数作为目标正则化系数。
  11. 如权利要求10所述的方法,其特征在于,当目标特征为分类特征时,所述准确系数为以下任意一项:准确率、召回率、F值,以及处于受试者工作特征曲线下方的面积AUC;当目标特征为连续特征时,所述准确系数为平均误差平方和的倒数。
  12. 如权利要求6-11任一项所述的方法,其特征在于,根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数,包括:
    将所述目标逻辑回归函数中每个特征对应的权重,作为所述每个特征对应的相关性系数。
  13. 如权利要求1-12任一项所述的方法,其特征在于,选择相关性系数符合设定条件的特征作为重要特征,包括:
    选择相关性系数大于设定相关性系数阈值的特征作为重要特征;或
    按照相关性系数从大到小对每个特征进行排序,选择前设定个数的特征作 为重要特征。
  14. 一种数据建模中的数据处理装置,其特征在于,包括:
    读取单元,用于读取原始数据以及预设的多个数据处理类别标识,其中,所述原始数据中的每一个数据列均对应一个特征;
    处理单元,用于根据各个数据处理类别标识分别对应的数据转换函数,对所述原始数据中的每个特征对应的数据列进行数据转换生成对应的扩展特征列,将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集;
    确定单元,用于确定所述扩展特征集中每个特征的相关性系数;
    第一选择单元,用于选择相关性系数符合设定条件的特征作为重要特征;
    第二选择单元,用于在所述扩展特征集中筛选出所述重要特征对应的数据列。
  15. 如权利要求14所述的装置,其特征在于,所述处理单元在对所述原始数据中的任一特征对应的数据列进行数据转换生成对应的扩展特征列时,具体用于:
    根据所述任一特征对应的数据列,在所述多个数据处理类别标识中,筛选出与所述任一特征相对应的目标数据处理类别标识;
    分别根据筛选的每一个目标数据处理类别标识对应的数据转换函数对所述任一特征对应的数据列进行数据转换,生成所述每一个目标数据处理类别标识对应的扩展特征;
    将所有目标数据处理类别标识对应的扩展特征作为所述任一特征的扩展特征列。
  16. 如权利要求15所述的装置,其特征在于,所述处理单元在根据所述任一特征对应的数据列,在所述多个数据处理类别标识中,筛选出与所述任一特征相对应的目标数据处理类别时,具体用于:
    根据所述任一特征对应的数据列,确定所述任一特征的数据类型,在所述多个数据处理类别标识中,筛选出与所述数据类型相对应的目标数据处理类别标识,其中,所述数据类型包括离散类型、连续类型;或/和
    根据所述任一特征对应的数据列,确定所述任一特征的数据缺陷类型,在所述多个数据处理类别标识中,筛选出与所述数据缺陷类型相对应的目标数据处理类别标识,其中,所述数据缺陷类型包括缺失值、异常值。
  17. 如权利要求14-16任一项所述的装置,其特征在于,所述处理单元在将所述原始数据中的所有特征对应的扩展特征列进行组合生成扩展特征集时,具体用于:
    将所述原始数据中的所有特征对应的扩展特征列进行组合,并对组合后的扩展特征列中的每个数据列进行独热one-hot编码,生成扩展特征集。
  18. 如权利要求17所述的装置,其特征在于,所述处理单元在对组合后的扩展特征列中的每个数据列进行one-hot编码,生成扩展特征集后,还用于:
    对所述扩展特征集中的任意两个数据列进行逻辑与运算,得到新的数据列添加至扩展特征集。
  19. 如权利要求14-18任一项所述的装置,其特征在于,所述确定单元,具体用于:
    获取目标正则化系数,基于所述目标正则化系数对所述扩展特征集进行逻辑回归训练,得到对应的目标逻辑回归函数;
    根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数。
  20. 如权利要求19所述的装置,其特征在于,所述确定单元在获取目标正则化系数时,具体用于:
    获取预设的目标正则化系数;或
    获取预设的多个正则化系数,基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数。
  21. 如权利要求20所述的装置,其特征在于,所述确定单元在基于扩展特征集,在预设的多个正则化系数中筛选出目标正则化系数时,具体用于:
    分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数;根据每个正则化系数对应的逻 辑回归函数,确定目标正则化系数;或者
    分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行线性支持向量机运算,得到对应的支持向量函数;根据每个正则化系数对应的支持向量函数,确定目标正则化系数。
  22. 如权利要求21所述的装置,其特征在于,所述确定单元在分别根据预设的多个正则化系数中的每个正则化系数,对所述扩展特征集进行逻辑回归训练,得到对应的逻辑回归函数时,具体用于:
    对所述扩展特征集按照设定比例进行抽样,得到训练集;
    分别根据预设的所述多个正则化系数中的每个正则化系数,对所述训练集进行逻辑回归训练,得到对应的逻辑回归函数。
  23. 如权利要求22所述的装置,其特征在于,所述确定单元在根据每个正则化系数对应的逻辑回归函数,确定目标正则化系数时,具体用于:
    将所述扩展特征集中除训练集以外的数据作为验证集;
    在所述验证集中的所有特征中确定目标特征;
    分别计算每一个正则化系数对应的逻辑回归函数针对所述验证集中目标特征的准确系数;
    筛选出对应的准确系数最高的逻辑回归函数,并将筛选出的逻辑回归函数对应的正则化系数作为目标正则化系数。
  24. 如权利要求23所述的装置,其特征在于,当目标特征为分类特征时,所述准确系数为以下任意一项:准确率、召回率、F值,以及处于受试者工作特征曲线下方的面积AUC;当目标特征为连续特征时,所述准确系数为平均误差平方和的倒数。
  25. 如权利要求19-24任一项所述的装置,其特征在于,所述确定单元在根据所述目标逻辑回归函数确定所述扩展特征集中每个特征的相关性系数时,具体用于:
    将所述目标逻辑回归函数中每个特征对应的权重,作为所述每个特征对应的相关性系数。
  26. 如权利要求14-25任一项所述的装置,其特征在于,所述第一选择单元,具体用于:
    选择相关性系数大于设定相关性系数阈值的特征作为重要特征;或
    按照相关性系数从大到小对每个特征进行排序,选择前设定个数的特征作为重要特征。
PCT/CN2015/086868 2014-12-23 2015-08-13 一种数据建模中的数据处理方法及装置 WO2016101628A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP15871702.5A EP3223170A1 (en) 2014-12-23 2015-08-13 Data processing method and device in data modeling
US15/631,864 US10606862B2 (en) 2014-12-23 2017-06-23 Method and apparatus for data processing in data modeling

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410814222.7A CN105786860B (zh) 2014-12-23 2014-12-23 一种数据建模中的数据处理方法及装置
CN201410814222.7 2014-12-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/631,864 Continuation US10606862B2 (en) 2014-12-23 2017-06-23 Method and apparatus for data processing in data modeling

Publications (1)

Publication Number Publication Date
WO2016101628A1 true WO2016101628A1 (zh) 2016-06-30

Family

ID=56149169

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/086868 WO2016101628A1 (zh) 2014-12-23 2015-08-13 一种数据建模中的数据处理方法及装置

Country Status (4)

Country Link
US (1) US10606862B2 (zh)
EP (1) EP3223170A1 (zh)
CN (1) CN105786860B (zh)
WO (1) WO2016101628A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610239A (zh) * 2016-09-27 2021-11-05 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理系统

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786860B (zh) * 2014-12-23 2020-07-07 华为技术有限公司 一种数据建模中的数据处理方法及装置
CN108665064B (zh) * 2017-03-31 2021-12-14 创新先进技术有限公司 神经网络模型训练、对象推荐方法及装置
CN109564641B (zh) * 2017-10-16 2023-08-25 深圳乐信软件技术有限公司 数据填补方法和装置
CN108399255A (zh) * 2018-03-06 2018-08-14 中国银行股份有限公司 一种分类数据挖掘模型的输入数据处理方法及装置
DE102018203553A1 (de) * 2018-03-08 2019-09-12 Vega Grieshaber Kg Datenaufbereitung für diagrammdarstellung
CN108764273B (zh) * 2018-04-09 2023-12-05 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN108875815A (zh) * 2018-06-04 2018-11-23 深圳市研信小额贷款有限公司 特征工程变量确定方法及装置
WO2020150955A1 (zh) * 2019-01-24 2020-07-30 深圳大学 数据分类方法、装置、设备以及存储介质
CN110378569A (zh) * 2019-06-19 2019-10-25 平安国际智慧城市科技股份有限公司 产业关系链构建方法、装置、设备及存储介质
CN110443305A (zh) * 2019-08-06 2019-11-12 北京明略软件系统有限公司 自适应特征处理方法及装置
CN110633304B (zh) * 2019-08-15 2023-08-22 中国平安人寿保险股份有限公司 组合特征筛选方法、装置、计算机设备及存储介质
CN110781174A (zh) * 2019-10-15 2020-02-11 支付宝(杭州)信息技术有限公司 一种使用pca和特征交叉的特征工程建模方法和系统
CN110782985B (zh) * 2019-10-25 2021-08-17 腾讯科技(深圳)有限公司 一种特征处理方法和相关设备
CN111027710A (zh) * 2019-12-06 2020-04-17 浙江大搜车软件技术有限公司 资源线索分配方法、装置、计算机设备和存储介质
CN111178615B (zh) * 2019-12-24 2023-10-27 成都数联铭品科技有限公司 一种企业风险识别模型的构建方法及系统
CN111240988B (zh) * 2020-01-17 2021-07-27 华东师范大学 一种面向非等值连接负载的数据生成方法及生成系统
CN111414353B (zh) * 2020-02-29 2024-05-28 平安科技(深圳)有限公司 智能化的缺失数据填充方法、装置及计算机可读存储介质
CN112164454A (zh) * 2020-10-10 2021-01-01 联仁健康医疗大数据科技股份有限公司 一种分诊预测的方法、装置及电子设备
CN112561082B (zh) * 2020-12-22 2024-08-27 北京百度网讯科技有限公司 生成模型的方法、装置、设备以及存储介质
CN112766649B (zh) * 2020-12-31 2022-03-15 平安科技(深圳)有限公司 基于多评分卡融合的目标对象评价方法及其相关设备
CN113344626A (zh) * 2021-06-03 2021-09-03 上海冰鉴信息科技有限公司 一种基于广告推送的数据特征优化方法及装置
CN113253998B (zh) * 2021-06-23 2021-12-17 北京奇岱松科技有限公司 基于结构化数据的扩展方法、装置、计算设备及存储介质
CN114579630A (zh) * 2022-01-12 2022-06-03 中冶赛迪重庆信息技术有限公司 一种数据在线处理展示方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865582B2 (en) * 2000-01-03 2005-03-08 Bechtel Bwxt Idaho, Llc Systems and methods for knowledge discovery in spatial data
CN101499075A (zh) * 2008-01-28 2009-08-05 万德洪 一种数据挖掘系统以及实现方法和应用
CN101799808A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种数据处理方法及其系统
CN102054001A (zh) * 2009-10-28 2011-05-11 中国移动通信集团公司 一种数据挖掘系统中数据预处理的方法、系统及装置
CN102799682A (zh) * 2012-05-10 2012-11-28 中国电力科学研究院 一种海量数据预处理方法及其系统
CN103559630A (zh) * 2013-10-31 2014-02-05 华南师范大学 一种基于客户属性及行为特征分析的客户细分方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
US8538934B2 (en) * 2011-10-28 2013-09-17 Microsoft Corporation Contextual gravitation of datasets and data services
CN102609523B (zh) * 2012-02-10 2018-03-06 上海视畅信息科技有限公司 基于物品分类和用户分类的协同过滤推荐方法
CN103425716B (zh) * 2012-05-24 2016-08-31 Tcl美国研究所 一种数据挖掘中基于命题逻辑的主特征分析方法及系统
CN105786860B (zh) * 2014-12-23 2020-07-07 华为技术有限公司 一种数据建模中的数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865582B2 (en) * 2000-01-03 2005-03-08 Bechtel Bwxt Idaho, Llc Systems and methods for knowledge discovery in spatial data
CN101499075A (zh) * 2008-01-28 2009-08-05 万德洪 一种数据挖掘系统以及实现方法和应用
CN101799808A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种数据处理方法及其系统
CN102054001A (zh) * 2009-10-28 2011-05-11 中国移动通信集团公司 一种数据挖掘系统中数据预处理的方法、系统及装置
CN102799682A (zh) * 2012-05-10 2012-11-28 中国电力科学研究院 一种海量数据预处理方法及其系统
CN103559630A (zh) * 2013-10-31 2014-02-05 华南师范大学 一种基于客户属性及行为特征分析的客户细分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3223170A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610239A (zh) * 2016-09-27 2021-11-05 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理系统
CN113610239B (zh) * 2016-09-27 2024-04-12 第四范式(北京)技术有限公司 针对机器学习的特征处理方法及特征处理系统

Also Published As

Publication number Publication date
US20170300546A1 (en) 2017-10-19
US10606862B2 (en) 2020-03-31
CN105786860A (zh) 2016-07-20
EP3223170A4 (en) 2017-09-27
CN105786860B (zh) 2020-07-07
EP3223170A1 (en) 2017-09-27

Similar Documents

Publication Publication Date Title
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN110377984A (zh) 一种工业设备剩余有效寿命预测方法、系统及电子设备
CN110147367B (zh) 一种温度缺失数据填补方法、系统及电子设备
WO2019047790A1 (zh) 生成机器学习样本的组合特征的方法及系统
CN113435602A (zh) 确定机器学习样本的特征重要性的方法及系统
CN106874688A (zh) 基于卷积神经网络的智能化先导化合物发现方法
CN104346481B (zh) 一种基于动态同步模型的社区检测方法
CN104392250A (zh) 一种基于MapReduce的图像分类方法
CN107169059A (zh) 一种基于相似变精度粗糙集模型的知识推送规则提取方法
CN110020176A (zh) 一种资源推荐方法、电子设备以及计算机可读存储介质
CN104537010A (zh) 基于决策树的网构软件中的构件分类方法
CN113610239A (zh) 针对机器学习的特征处理方法及特征处理系统
CN107862022A (zh) 文化资源推荐系统
CN111429980A (zh) 一种材料晶体结构特征的自动化获取方法
CN107729915A (zh) 用于确定机器学习样本的重要特征的方法及系统
CN101808339A (zh) 一种应用k-means和先验知识的话务小区自适应分类方法
CN110647995A (zh) 规则训练方法、装置、设备及存储介质
CN105893669A (zh) 一种基于数据挖掘的全局仿真性能预测方法
CN104050547A (zh) 一种油田开发规划方案非线性优选决策方法
CN112529319A (zh) 基于多维特征的评分方法、装置、计算机设备及存储介质
Jemai et al. FBWN: An architecture of fast beta wavelet networks for image classification
CN116362823A (zh) 用于行为稀疏场景的推荐模型训练方法、推荐方法及装置
CN104915430B (zh) 一种基于MapReduce的约束关系粗糙集规则获取方法
CN107908807A (zh) 一种基于贝叶斯理论的小子样可靠性评定方法
Zhang et al. Graph pruning for model compression

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15871702

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2015871702

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE