WO2017088587A1 - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
WO2017088587A1
WO2017088587A1 PCT/CN2016/100835 CN2016100835W WO2017088587A1 WO 2017088587 A1 WO2017088587 A1 WO 2017088587A1 CN 2016100835 W CN2016100835 W CN 2016100835W WO 2017088587 A1 WO2017088587 A1 WO 2017088587A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
data set
model
determining
feature
Prior art date
Application number
PCT/CN2016/100835
Other languages
English (en)
French (fr)
Inventor
陈庆玉
谭卫国
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP16867814.2A priority Critical patent/EP3373157A4/en
Publication of WO2017088587A1 publication Critical patent/WO2017088587A1/zh
Priority to US15/985,938 priority patent/US20180268005A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Definitions

  • the present invention relates to the field of computers, and in particular, to a data processing method and apparatus.
  • Data mining is a step in Knowledge Discovery in Databases (KDD) that extracts valuable information by finding hidden relationships from large amounts of data.
  • KDD Knowledge Discovery in Databases
  • the general process of data mining includes business understanding, data understanding, data preparation, hyperparameter setting, model building, model evaluation, and model deployment. Among them, the establishment of the model requires the use of hyperparameters, and the random forest algorithm can be used to build the model, random forest.
  • It is a supervised integrated learning classification technology.
  • Its model consists of a set of decision tree classifiers. The classification of data by the model is based on the classification result of a single decision tree to determine the final result. It combines Leo Breiman's Bagging integrated learning theory with the stochastic subspace method proposed by Ho. By injecting randomness into the training sample space and attribute space, it fully guarantees the independence and difference between each decision tree. Overcoming the problem of over-fitting of decision trees, and also robustness to noise and outliers (Robust).
  • Data mining technology is mainly divided into two development directions, one is to establish model analysis for static data, and the other is to incrementally establish model analysis for changing data.
  • the original created model needs to be updated to ensure that the updated model can reflect the information of the new data set.
  • Incremental model analysis deals with ever-changing data sets. The data sets are different, and the hyperparameters needed to build the model may be different. Therefore, in order to ensure that the model of the updated model is not deteriorated after updating the original created model with the new dataset, the hyperparameters used in creating the original model need to be adjusted.
  • the current adjustment of hyperparameters relies on expert experience, and experts need to adjust hyperparameters according to the effect of the model, which is inefficient and leads to inefficiency in data processing.
  • Embodiments of the present invention provide a data processing method and apparatus, which can solve the problem that adjusting the hyperparameter-dependent expert experience results in low parameter adjustment efficiency, resulting in low data processing efficiency when data is constantly changing.
  • a data processing method including a process in which a data processing apparatus processes a received data set by using a first data model, the first data model being determined according to a hyper parameter, the method comprising:
  • the data processing apparatus acquires a first data set to determine a change in a data feature of the first data set relative to a data feature of the second data set, the second data set being the data processing device acquiring the a data set received before a data set;
  • Data processing is performed according to the determined first data model.
  • the method further includes a second data model, determining an effect of the second data model according to the first data set; Determining a third data model according to the first data set and the second data model; determining an effect of the third data model according to the first data set; determining an effect of the third data model relative to the first a change in the effect of the second data model; when the change in the effect of the third data model relative to the effect of the second data model is greater than or equal to the preset model effect threshold, determining according to the data characteristics of the first data set Hyperparameters.
  • the method further includes a window length, where the window length is an integer greater than or equal to 1.
  • the method further includes:
  • determining the change of the data feature of the first data set relative to the data feature of the second data set includes:
  • the characterization of the hyperparameters includes:
  • the hyper-parameter is determined according to the data characteristics of the first data set.
  • the method further includes:
  • the effect of determining the second data model according to the first data set includes:
  • the determining the effect of the third data model on the effect of the second data model includes:
  • determining the hyperparameter according to the data feature of the first data set includes:
  • the hyper-parameter is determined based on the data characteristics of the first data set.
  • the method further includes a hyperparametric model, according to the first data set Data characteristics determine hyperparameters including:
  • a hyperparameter is determined based on the data characteristics of the first data set and the hyperparametric model.
  • the first data model is further determined according to the second data model.
  • the data feature includes a sample number, a logarithm of the sample number, a feature number, and a feature number Logarithm, number of categories, number of samples with missing values, proportion of samples with missing values, number of features with missing values, proportion of features with missing values, number of missing values, proportion of missing values, number of numerical features, The ratio of the number of categorical features, the number of numerical features to the number of categorical features, the ratio of the number of categorical features to the number of numerical features, data Set dimension, logarithm of dimension of dataset, dimension after dataset transpose, logarithm of dimension after dataset transpose, category probability minimum, category probability maximum, category probability mean, category probability standard deviation , the minimum number of categorical data, the maximum number of categorical data, the average of the number of categorical data, the standard deviation of the number of categorical data, the total number of categorical data, the kur
  • a data processing apparatus processing a received data set using a first data model, the first data model being determined according to a hyperparameter, wherein the The data processing device includes an acquisition module and a processing module:
  • the acquiring module is configured to acquire a first data set, and determine a change of a data feature of the first data set with respect to a data feature of the second data set, where the second data set is the data processing device a data set received before the first data set;
  • the processing module is configured to: according to a data feature of the first data set, when a change of a data feature of the first data set relative to a data feature of the second data set is greater than or equal to a preset data feature threshold Determine the hyperparameter;
  • the processing module is further configured to determine a first data model according to the determined hyperparameter and the first data set;
  • the processing module is further configured to perform data processing according to the determined first data model.
  • the processing module is further configured to determine, according to the first data set, the second data model a third data model is determined according to the first data set and the second data model; determining an effect of the third data model according to the first data set; determining an effect of the third data model is relative a change in the effect of the second data model; when the change in the effect of the third data model relative to the effect of the second data model is greater than or equal to a preset model effect threshold, according to the first data set
  • the data characteristics determine the hyperparameters.
  • the window length is further included, and the window length is an integer greater than or equal to 1.
  • the processing module is further used to:
  • determining the change of the data feature of the first data set relative to the data feature of the second data set includes:
  • determining, when the change of the data feature of the first data set relative to the data feature of the second data set is greater than or equal to a preset data feature threshold, determining the hyper parameter according to the data feature of the first data set includes:
  • the hyper-parameter is determined according to the data characteristics of the first data set.
  • the processing module was also used to:
  • the effect of determining the second data model according to the first data set includes:
  • the determining the effect of the third data model on the effect of the second data model includes:
  • determining the hyperparameter according to the data feature of the first data set includes:
  • the hyper-parameter is determined based on the data characteristics of the first data set.
  • the method further includes a hyperparametric model, where the data feature is determined according to the first data set Hyperparameters include:
  • a hyperparameter is determined based on the data characteristics of the first data set and the hyperparametric model.
  • the first data model is further determined according to the second data model.
  • the data feature includes a sample number, a logarithm of the sample number, and a special Signs, logarithm of feature numbers, number of categories, number of samples with missing values, proportion of samples with missing values, number of features with missing values, characteristic ratio with missing values, number of missing values, proportion of missing values, numerical The number of features, the number of categorical features, the number of numerical features and the number of categorical features, the ratio of the number of categorical features to the number of numerical features, the dimensions of the data set, the data The logarithm of the set dimension, the dimension after the transposition of the data set, the logarithm of the dimension after the transposition of the data set, the minimum value of the category probability, the maximum value of the category probability, the average value of the category probability, the standard deviation of the category probability, and the least the category data The number of values, the maximum number of categorical data, the average of the number of categorical data, the average of the number of categorical
  • the data processing apparatus determines, by acquiring the first data set, a change of a data feature of the first data set with respect to a data feature of the second data set, where the second data set is Determining, by the data processing device, a data set received before acquiring the first data set; when a change in a data feature of the first data set relative to a data feature of the second data set is greater than or equal to a preset data feature threshold Determining a hyperparameter according to the data feature of the first data set; determining a first data model according to the determined hyperparameter and the first data set; performing data processing according to the determined first data model, improving The efficiency of the first data model is determined, thereby improving the efficiency of data processing.
  • FIG. 1 is a schematic diagram showing the hardware structure of a computer device 100 according to an embodiment of the invention
  • FIG. 2 is an exemplary flowchart of a data processing method 200 in accordance with an embodiment of the present invention
  • FIG. 3 is a schematic structural diagram of a data processing apparatus 300 according to an embodiment of the invention.
  • FIG. 1 is a block diagram showing the hardware structure of a computer device 100 according to an embodiment of the invention.
  • computer device 100 includes a processor 102, a memory 104, a communication interface 106, and a bus 108.
  • the processor 102, the memory 104, and the communication interface 106 implement a communication connection with each other through the bus 108.
  • the processor 102 can be a general-purpose central processing unit (CPU), a microprocessor, an application specific integrated circuit (ASIC), or one or more integrated circuits for executing related programs.
  • CPU central processing unit
  • ASIC application specific integrated circuit
  • the memory 104 may be a read only memory (ROM), a static storage device, a dynamic storage device, or a random access memory (RAM).
  • the memory 104 can store an operating system 1041 and other applications 1042.
  • the program code for implementing the technical solution provided by the embodiment of the present invention is stored in the memory 104 and executed by the processor 102 when the technical solution provided by the embodiment of the present invention is implemented by software or firmware.
  • Communication interface 106 implements communication with other devices or communication networks using transceivers such as, but not limited to, transceivers.
  • Bus 108 may include a path for communicating information between various components (e.g., processor 102, memory 104, communication interface 106).
  • Computer device 100 can be a general purpose computer device or a special purpose computer device. In practical applications, the computer device 100 can be a desktop computer, a laptop, a web server, a personal digital assistant (PDA), a mobile phone, a tablet, a wireless terminal device, a telecommunication device, an embedded system, or the like having a structure similar to that of FIG. device of.
  • PDA personal digital assistant
  • the processor 102 is configured to perform acquiring a first data set, determining a change of a data feature of the first data set with respect to a data feature of the second data set, where the second data set is acquired by the data processing apparatus.
  • a data set received before the first data set when a change in a data feature of the first data set relative to a data feature of the second data set is greater than or equal to a preset data feature threshold, according to the A data feature of a data set determines a hyperparameter; a first data model is determined based on the determined hyperparameter and the first data set; and data processing is performed in accordance with the determined first data model.
  • data processing method 200 is an exemplary flow diagram of a data processing method 200 in accordance with an embodiment of the present invention.
  • data processing method 200 can be performed by, for example, but not limited to, computer device 100.
  • the computer device acquires a first data set, and determines a data feature of the first data set.
  • the first data set may be obtained by receiving a data stream, or may be obtained by a database reading manner.
  • the data feature includes a sample number (number Of patterns), log number of patterns, number of features, log number of features, number of classes, number of samples with missing values Number of patterns with missing values, percentage of features with missing values, number of features with missing values, percentage of features with features Missing values), number of missing values, percentage of missing values, number of numerical features, number of categorical features, The ratio of the number of numerical features to the number of categorical features (ratio numerical to categorical), the ratio of the number of categorical features to the number of numerical features (ratio categorical to numerical), the dimensions of the data set ( Dataset dimensionality), the logarithm of the dataset dimension (log dataset dimensionality), Inverse dataset dimensionality, log inverse dataset dimensionality, class probability minimum, class probability maximum, class probability maximum Class probability mean, class probability standard deviation, minimum count of categorical values, maximum count of categorical values Mean count of categorical values, Standard Deviation of count of categorical values, total number of categorical features
  • the first data set is data recommended for the application:
  • the data characteristics of the first data set can be obtained as
  • each row of data is one sample, and the number of samples is 100.
  • the number of categories is the number of types of values in the last column "I like it.” In this example, "I like it” has two values of "1" and "0", and the number of categories is 2.
  • the average entropy of a class can be passed through a formula The calculation, where m represents the number of categories, j is a positive integer less than or equal to m, and ⁇ j represents the proportion of the number of samples per category in the total number of samples.
  • the computer device determines, according to the second data set, a data feature of the second data set, where the second data set is a data set received by the computer device before acquiring the first data set.
  • the computer device determines a change in a data feature of the first data set relative to a data feature of the second data set.
  • the data feature can be used as a vector, and the change of the vector is determined by calculating the distance between the vectors or the cosine similarity, thereby determining the data feature of the first data set relative to the second. A change in the data characteristics of the data set.
  • the data feature element of the first data set is
  • the cosine similarity calculation formula is The symbol "
  • the first data can be represented by PQ.
  • a change in the data characteristics of the set relative to the data characteristics of the second data set. Since the data feature of the first data set has a cosine similarity to itself of 1, the change of the data feature of the first data set relative to the data feature of the second data set can be expressed as 1-0.99995 0.00005.
  • the computer device determines, according to the data feature of the first data set. Hyperparameters.
  • the computer device should be based on the first data.
  • the data characteristics of the set determine the hyperparameters.
  • the data processing method 200 further includes a hyperparameter model, and the determining the hyperparameter according to the data feature of the first data set comprises: according to the data feature of the first data set
  • the hyperparametric model determines hyperparameters.
  • the hyperparameter model may be established by: establishing a hyperparameter model according to data features of the data set used in each update model and corresponding hyperparameters. For example, when using the random forest algorithm to build a hyperparameter model, suppose there are two hyperparameters: the number m of trees and the depth n of the tree. The computer device saves the data characteristics and corresponding supers of the data set used to update each model. Parameters, as shown in Table 2
  • Table 2 data set data characteristics and corresponding hyperparameters
  • the data characteristics of the data set are used as the eigenvalues of the hyperparameter model, and the hyperparameters are used as the target values for establishing the hyperparameter model.
  • the hyperparametric model can be established by the random forest algorithm. A hyperparameter model with a target value of the tree number m of the tree and the depth n of the tree can be separately established. After the hyperparameter model is established, it is applied to the data features of the first data set described above, and the corresponding correspondence can be obtained. The range of values of the hyperparameters of the data features of the first data set.
  • the value range of the hyper-parameter can be determined by using a binary search method.
  • the optimal hyperparameter refers to the superparameter that improves the performance of the data model in the range of values of the determined hyperparameters.
  • the data model is determined based on the data set.
  • the binary search method can determine the optimal hyperparameters with fewer search times.
  • the data processing method 200 further includes a second data model, and determining an effect of the second data model according to the first data set; a data set and the second data model, determining a third data model; determining an effect of the third data model based on the first data set; determining an effect of the third data model relative to the second data a change in the effect of the model; when the change in the effect of the third data model relative to the effect of the second data model is greater than or equal to a preset model effect threshold, the hyperparameter is determined based on the data characteristics of the first data set .
  • the first data set is the data about the application recommendation shown in Table 1, according to the "ID” column, the "flow package” column, the "application type” column, the “application name” column, and the first data in Table 1.
  • the model can obtain a predicted value indicating "whether it is like".
  • the number of samples H whose statistical predicted value is consistent with the target value is divided by H by the first data.
  • the set number of samples is 100, and the accuracy of the predicted value can be obtained, which can reflect the effect of the data model. Assuming that the number of samples obtained by the statistics is 73, the effect A1 of the second data model obtained from the data set in Table 1 is 0.73;
  • a hyperparameter that establishes the second data model is also utilized.
  • the second data model is assumed to be a random forest model
  • the "ID" column, the "Traffic Package” column, the "Application Type” column, and the “Application Name” column are used as arguments, and the "I like it” column is used as the cause.
  • the predicted value indicating "whether or not” can be obtained.
  • the number of samples J whose statistical value is consistent with the target value is statistically calculated, and J is divided by the number of samples 100 of the first data set to obtain the accuracy of the predicted value.
  • the change in the effect of the third data model relative to the effect of the second data model can be expressed as Assuming that the preset model effect threshold is 1%, the change of the effect of the third data model relative to the effect of the second data model is greater than the preset model effect threshold, and the computer device determines the hyperparameter according to the data characteristics of the first data set.
  • the data processing method 200 further includes a window length, and the window length is an integer greater than or equal to 1.
  • the data processing method 200 before determining the data feature of the second data set according to the stored second data set, the data processing method 200 further includes: The window length determines a second data set; when the window length is greater than 1, the determining the data feature of the second data set comprises: determining a data feature of each of the second data sets; The changing of the data feature of the first data set relative to the data feature of the second data set includes determining a change in a data feature of the first data set relative to a data feature of each of the second data set; When the change of the data feature of the first data set relative to the data feature of the second data set is greater than or equal to a preset data feature threshold, determining the hyper parameter according to the data feature of the first data set includes: When the change of the data feature of the first data set relative to the data feature of the at least one of the second data set is greater than or equal to a preset data feature threshold, according to the data of the first data set Super determine parameters.
  • the second data set determined according to the length of the window is a window length data set recently stored by the computer device.
  • the three data sets recently stored by the computer device are determined according to the window length. Assuming that the three data sets are data sets D1, D2, and D3, respectively, the computer device determines the data sets D1 and D2, respectively. And the data feature of D3, the cosine similarity of the data feature of the first data set and the data feature of the data set D1, D2, D3 may be calculated, and the data feature of the first data set is determined according to the cosine similarity relative to the data set D1, D2 And the change of the data characteristics of D3, assuming that the calculated cosine similarity is
  • the computer device determines the hyperparameter according to the data characteristics of the first data set.
  • the data characteristics of the first data set are less than the preset data feature threshold relative to the data characteristics of the most recent data set stored by the computer device, but are stored earlier than the computer device.
  • the data feature of the data set changes to the preset data feature threshold.
  • the hyperparameter should be re-determined. Therefore, determining the change of the data feature within the window length can deal with the slow change of the data feature, so that the hyperparameter adjustment More timely.
  • the data processing method 200 further includes: determining, according to the window length a second data model; when the window length is greater than 1, the effect of determining the second data model according to the first data set comprises: determining each of the second data models according to the first data set
  • the effect of determining the effect of the third data model relative to the effect of the second data model comprises determining an effect of the effect of the third data model relative to each of the second data models a change of the effect of determining the effect of the third data model relative to the effect of the second data model is greater than or equal to a preset model effect threshold, determining a hyperparameter according to data characteristics of the first data set
  • the method includes: when the change of the effect of the third data model relative to the effect of the at least one of the second data models is greater than or equal to a preset model effect threshold, according to the first number Determining characteristic data sets hyperparameters.
  • the first data model determined according to the window length is a window length data model recently stored by the computer device.
  • the window length is 3
  • the three data models recently stored by the computer device are determined according to the window length. If the three data models are respectively M1, M2, and M3, the computer device separately calculates the data model according to the first data set. The effect of M1, M2, and M3, assuming that the calculated data model has the effect
  • the computer device determines that the preset model effect threshold is 4.7%, because the effect of the second data model is 4.79% relative to the effect of the data model M1, and the effect of the data model M2 is 4.77% greater than the preset model effect threshold of 4.7%, so the computer device according to the The data characteristics of a data set are determined to be super parameter.
  • the effect of the second data model is less than the default model effect threshold relative to the effect of the most recent data model stored by the computer device, but is stored earlier than the computer device.
  • the change of the effect of the model reaches the threshold of the preset model effect.
  • the hyperparameter should be re-determined. Therefore, the change of the effect of the data model within the length of the window can be determined to deal with the slow change of the effect of the data model, so that the adjustment of the hyperparameter More timely.
  • the computer device determines a first data model according to the determined hyperparameter and the first data set.
  • the computer device performs data processing according to the determined first data model.
  • the process of determining the first data model according to the first data set and the determined hyperparameter is the same as the process of determining the third data model in S204, and details are not described herein again.
  • the data processing method may be an application recommendation method, and the data processing may be recommended for application.
  • the user information and the application information may be used to determine an application that needs to be recommended according to the determined first data model.
  • the data processing apparatus determines, by acquiring the first data set, a change in a data feature of the first data set relative to a data feature of the second data set, the second data set being the first data set by the data processing apparatus a data set received before the data set; when the change of the data feature of the first data set relative to the data feature of the second data set is greater than or equal to a preset data feature threshold, according to the first data set Determining a hyperparameter according to the determined data parameter; determining a first data model according to the determined hyperparameter and the first data set; performing data processing according to the determined first data model, thereby improving efficiency of determining the first data model, thereby Improve the efficiency of data processing.
  • FIG. 3 is a schematic structural diagram of a data processing apparatus 300 according to an embodiment of the invention.
  • the data processing device 300 includes an acquisition module 302 and a processing module 304.
  • An obtaining module 302 configured to acquire a first data set, determine a change of a data feature of the first data set with respect to a data feature of the second data set, where the second data set is obtained by the data processing apparatus The data set received before the first data set;
  • the processing module 304 is configured to determine, according to a data feature of the first data set, when a change of a data feature of the first data set relative to a data feature of the second data set is greater than or equal to a preset data feature threshold Super parameter
  • the processing module 304 is further configured to determine the first data model according to the determined hyperparameter and the first data set;
  • the processing module 304 is further configured to perform data processing according to the determined first data model.
  • the method further includes a second data model, where the processing module 304 is further configured to determine an effect of the second data model according to the first data set; And the second data model, determining a third data model; determining an effect of the third data model according to the first data set; determining an effect of the third data model relative to the second data model a change in effect; when the change in the effect of the third data model relative to the effect of the second data model is greater than or equal to a preset model effect threshold, the hyper-parameter is determined based on the data characteristics of the first data set.
  • the window length is further included, and the window length is an integer greater than or equal to 1.
  • the processing module before determining a change of a data feature of the first data set with respect to a data feature of the second data set, the processing module is further configured to:
  • determining the change of the data feature of the first data set relative to the data feature of the second data set includes:
  • determining, when the change of the data feature of the first data set relative to the data feature of the second data set is greater than or equal to a preset data feature threshold, determining the hyper parameter according to the data feature of the first data set includes:
  • the hyper-parameter is determined according to the data characteristics of the first data set.
  • the processing module before the determining the effect of the second data model according to the first data set, the processing module is further configured to:
  • the effect of determining the second data model according to the first data set includes:
  • the determining the effect of the third data model on the effect of the second data model includes:
  • determining the hyperparameter according to the data feature of the first data set includes:
  • the hyper-parameter is determined based on the data characteristics of the first data set.
  • the method further includes a hyperparameter model, and the determining the hyperparameter according to the data feature of the first data set includes:
  • a hyperparameter is determined based on the data characteristics of the first data set and the hyperparametric model.
  • the first data model is further determined according to the second data model.
  • the “module” may be an Application Specific Integrated Circuit (ASIC), an electronic circuit, a processor and a memory that execute one or more software or firmware programs, a combination logic circuit, and other components that provide the above functions.
  • ASIC Application Specific Integrated Circuit
  • the data processing device 300 is implemented by a computer device.
  • the obtaining module 302 can be implemented by a processor, a memory, and a communication interface of the computer device, and the processing module 304 can process the server.
  • the processor and memory are implemented.
  • the computer device 100 shown in FIG. 1 only shows the processor 102, the memory 104, the communication interface 106, and the bus 108, in a specific implementation process, those skilled in the art should understand that the above data processing device also Contains other devices necessary to achieve proper operation. At the same time, those skilled in the art will appreciate that the above data processing apparatus may also include hardware devices that implement other additional functions, depending on the particular needs. Moreover, those skilled in the art will appreciate that the data processing apparatus described above may also only include the components necessary to implement the embodiments of the present invention, and do not necessarily include all of the devices shown in FIG.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or It is implemented in the form of a software functional unit.
  • the integrated unit if implemented in the form of a software functional unit and sold or used as a standalone product, may be stored in a computer readable storage medium.
  • the technical solution of the present invention which is essential or contributes to the prior art, or all or part of the technical solution, may be embodied in the form of a software product stored in a storage medium.
  • a number of instructions are included to cause a computer device (which may be a personal computer, server, or network device, etc.) or a processor to perform all or part of the steps of the methods described in various embodiments of the present invention.
  • the foregoing storage medium includes: a U disk, a mobile hard disk, a read-only memory (ROM), a random access memory (RAM), a magnetic disk, or an optical disk, and the like. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种数据处理方法,数据处理装置获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;根据所述确定的超参数和所述第一数据集确定第一数据模型;根据所述确定的第一数据模型进行数据处理,提高了确定第一数据模型的效率,从而提高了进行数据处理的效率。

Description

一种数据处理方法及装置
本申请要求于2015年11月24日提交中国专利局、申请号为201510824545.9,发明名称为“一种数据处理方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及计算机领域,尤其涉及一种数据处理方法及装置。
背景技术
数据挖掘是数据库知识发现(Knowledge Discovery in Databases,KDD)中的一个步骤,通过从大量数据中寻找隐藏的关系提取出有价值的信息。数据挖掘的一般流程包括业务理解、数据理解、数据准备、超参数(Hyperparameter)设置、建立模型、模型评估、模型部署,其中,建立模型需要使用超参数,可以使用随机森林算法建立模型,随机森林是一种有监督的集成学习分类技术,其模型由一组决策树分类器组成,模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果。它结合了Leo Breiman的Bagging集成学习理论与Ho提出的随机子空间方法,通过对训练样本空间和属性空间注入随机性,充分保证了每个决策树之间的独立性和差异性,很好地克服了决策树过拟合问题,同时对噪声和异常值也有较好的鲁棒性(Robust)。
数据挖掘技术主要分为两个发展方向,一个是针对静态数据进行建立模型分析,一个是针对不断变化的数据进行增量建立模型分析。在增量建立模型分析中,当有新的数据集时,需要更新原来已创建的模型,以确保更新后的模型能够反映新的数据集的信息。增量建立模型分析处理的是不断变化的数据集,数据集不同,建立模型所需要使用的超参数就可能不同。因此,为了保证使用新数据集更新原来已创建的模型后,得到的更新后的模型的模型效果不变差,就需要对创建原模型时使用的超参数进行调整。然而,在数据不断变化的情况下,目前对超参数进行调整依赖专家经验,需要专家根据模型效果来调整超参数,效率低下,导致在进行数据处理时的效率低下。
发明内容
本发明的实施例提供一种数据处理方法和装置,能够解决在数据不断变化的情况下,调整超参数依赖专家经验导致超参数调整效率低,从而导致数据处理效率低的问题。
第一方面,提供了一种数据处理方法,包含数据处理装置利用第一数据模型对接收到的数据集进行处理的过程,所述第一数据模型根据超参数确定,所述方法包括:
所述数据处理装置获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;
当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;
根据所述确定的超参数和所述第一数据集确定第一数据模型;
根据所述确定的第一数据模型进行数据处理。
结合第一方面的实现方式,在第一方面第一种可能的实现方式中,所述方法还包括第二数据模型,根据所述第一数据集确定所述第二数据模型的效果;根据所述第一数据集和所述第二数据模型,确定第三数据模型;根据所述第一数据集确定所述第三数据模型的效果;确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化;当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
结合第一方面、第一方面的第一种可能的实现方式,在第二种可能实现的方式中,所述方法还包括窗口长度,所述窗口长度为大于等于1的整数。
结合第一方面、第一方面的第一种至第二种可能的实现方式,在第三种可能实现的方式中,在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前,所述方法还包括:
根据所述窗口长度确定第二数据集;
当所述窗口长度大于1时,确定所述第二数据集的数据特征,包括:
确定每个所述第二数据集的数据特征;
则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括:
确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化;
则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特 征确定超参数包括:
当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数。
结合第一方面、第一方面的第一种至第三种可能的实现方式,在第四种可能实现的方式中,在所述根据所述第一数据集确定所述第二数据模型的效果之前,所述方法还包括:
根据所述窗口长度确定第二数据模型;
当所述窗口长度大于1时,所述根据所述第一数据集确定所述第二数据模型的效果包括:
根据所述第一数据集确定每个所述第二数据模型的效果;
则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括:
确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化;
则所述当所述第三数据模型的效果相对于所述二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数包括:
当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
结合第一方面、第一方面的第一种至第四种可能的实现方式,在第五种可能实现的方式中,所述方法还包括超参数模型,所述根据所述第一数据集的数据特征确定超参数包括:
根据所述第一数据集的数据特征和所述超参数模型确定超参数。
结合第一方面、第一方面的第一种至第五种可能的实现方式,在第六种可能实现的方式中,还根据所述第二数据模型确定所述第一数据模型。
结合第一方面、第一方面的第一种至第六种可能的实现方式,在第七种可能实现的方式中,所述数据特征包括样本数、样本数的对数、特征数、特征数的对数、类别数、有缺失值的样本数、有缺失值的样本比例、有缺失值的特征数、有缺失值的特征比例、缺失值数量、缺失值比例、数值型特征的个数、范畴型特征的个数、数值型特征的个数与范畴型特征的个数之比、范畴型特征的个数与数值型特征的个数之比、数据 集的维度、数据集的维度的对数、数据集转置后的维度、数据集转置后的维度的对数、类别概率最小值、类别概率最大值、类别概率平均值、类别概率标准差、范畴型数据最少取值数量、范畴型数据最大取值数量、范畴型数据取值数量的平均值、范畴型数据取值数量的标准差、范畴型数据取值总数量、所有特征的峰态的最小值、所有特征的峰态的最大值、所有特征的峰态的平均值、所有特征的峰态的标准差、所有特征的偏态的最小值、所有特征的偏态的最大值、所有特征的偏态的平均值、所有特征的偏态的标准差、标准差比、所有特征的两两相关系数的平均值、类的平均熵、特征的平均熵中的至少一种。
第二方面,提供了一种数据处理装置,所述数据处理装置利用第一数据模型对接收到的数据集进行处理的过程,所述第一数据模型根据超参数确定,其特征在于,所述数据处理装置包括获取模块和处理模块:
所述获取模块,用于获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;
所述处理模块,用于当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;
所述处理模块,还用于根据所述确定的超参数和所述第一数据集确定第一数据模型;
所述处理模块,还用于根据所述确定的第一数据模型进行数据处理。
结合第二方面的实现方式,在第二方面第一种可能的实现方式中,还包括第二数据模型,所述处理模块还用于根据所述第一数据集确定所述第二数据模型的效果;根据所述第一数据集和所述第二数据模型,确定第三数据模型;根据所述第一数据集确定所述第三数据模型的效果;确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化;当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
结合第二方面、第二方面的第一种可能的实现方式,在第二种可能实现的方式中,还包括窗口长度,所述窗口长度为大于等于1的整数。
结合第二方面、第二方面的第一种至第二种可能的实现方式,在第三种可能实现的方式中,在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前,所述处理模块还用于:
根据所述窗口长度确定第二数据集;
当所述窗口长度大于1时,确定所述第二数据集的数据特征,包括:
确定每个所述第二数据集的数据特征;
则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括:
确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化;
则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数包括:
当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数。
结合第二方面、第二方面的第一种至第三种可能的实现方式,在第四种可能实现的方式中,在所述根据所述第一数据集确定所述第二数据模型的效果之前,所述处理模块还用于:
根据所述窗口长度确定第二数据模型;
当所述窗口长度大于1时,所述根据所述第一数据集确定所述第二数据模型的效果包括:
根据所述第一数据集确定每个所述第二数据模型的效果;
则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括:
确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化;
则所述当所述第三数据模型的效果相对于所述二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数包括:
当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
结合第二方面、第二方面的第一种至第四种可能的实现方式,在第五种可能实现的方式中,还包括超参数模型,所述根据所述第一数据集的数据特征确定超参数包括:
根据所述第一数据集的数据特征和所述超参数模型确定超参数。
结合第二方面、第二方面的第一种至第五种可能的实现方式,在第六种可能实现的方式中,还根据所述第二数据模型确定所述第一数据模型。
结合第二方面、第二方面的第一种至第六种可能的实现方式,在第七种可能实现的方式中,所述数据特征包括样本数、样本数的对数、特 征数、特征数的对数、类别数、有缺失值的样本数、有缺失值的样本比例、有缺失值的特征数、有缺失值的特征比例、缺失值数量、缺失值比例、数值型特征的个数、范畴型特征的个数、数值型特征的个数与范畴型特征的个数之比、范畴型特征的个数与数值型特征的个数之比、数据集的维度、数据集的维度的对数、数据集转置后的维度、数据集转置后的维度的对数、类别概率最小值、类别概率最大值、类别概率平均值、类别概率标准差、范畴型数据最少取值数量、范畴型数据最大取值数量、范畴型数据取值数量的平均值、范畴型数据取值数量的标准差、范畴型数据取值总数量、所有特征的峰态的最小值、所有特征的峰态的最大值、所有特征的峰态的平均值、所有特征的峰态的标准差、所有特征的偏态的最小值、所有特征的偏态的最大值、所有特征的偏态的平均值、所有特征的偏态的标准差、标准差比、所有特征的两两相关系数的平均值、类的平均熵、特征的平均熵中的至少一种。
根据本发明实施例提供的技术方案,数据处理装置通过获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;根据所述确定的超参数和所述第一数据集确定第一数据模型;根据所述确定的第一数据模型进行数据处理,提高了确定第一数据模型的效率,从而提高了进行数据处理的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是依据本发明一实施例的计算机设备100的硬件结构示意图;
图2是依据本发明一实施例的数据处理方法200的示范性流程图;
图3是依据本发明一实施例的数据处理装置300的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明, 以免不必要的细节妨碍本发明的描述。
图1是依据本发明一实施例的计算机设备100的硬件结构示意图。如图1所示,计算机设备100包括处理器102、存储器104、通信接口106和总线108。其中,处理器102、存储器104和通信接口106通过总线108实现彼此之间的通信连接。
处理器102可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本发明实施例所提供的技术方案。
存储器104可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器104可以存储操作系统1041和其他应用程序1042。在通过软件或者固件来实现本发明实施例提供的技术方案时,用于实现本发明实施例提供的技术方案的程序代码保存在存储器104中,并由处理器102来执行。
通信接口106使用例如但不限于收发器一类的收发装置,来实现与其他设备或通信网络之间的通信。
总线108可包括一通路,在各个部件(例如处理器102、存储器104、通信接口106)之间传送信息。
计算机设备100可以是通用计算机设备或专用计算机设备。在实际应用中,计算机设备100可以是台式计算机、手提电脑、网络服务器、个人数字助理(PDA)、移动电话、平板电脑、无线终端设备、电信设备、嵌入式系统或其他具有与图1相似结构的设备。
其中,处理器102用于执行获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;根据所述确定的超参数和所述第一数据集确定第一数据模型;根据所述确定的第一数据模型进行数据处理。
图2是依据本发明一实施例的数据处理方法200的示范性流程图。在具体实现过程中,数据处理方法200可以由例如但不限于计算机设备100来执行。
S201,计算机设备获取第一数据集,确定所述第一数据集的数据特征。
在本发明实施例的一种实现方式中,可以通过接收数据流的方式获取第一数据集,也可以通过数据库读取方式获取第一数据集。
在本发明实施例的一种实现方式中,数据特征包括样本数(number  of patterns)、样本数的对数(log number of patterns)、特征数(number of features)、特征数的对数(log number of features)、类别数(number of classes)、有缺失值的样本数(number of patterns with missing values)、有缺失值的样本比例(percentage of patterns with missing values)、有缺失值的特征数(number of features with missing values)、有缺失值的特征比例(percentage of features with missing values)、缺失值数量(number of missing values)、缺失值比例(percentage of missing values)、数值型特征的个数(number of numerical features)、范畴型特征的个数(number of categorical features)、数值型特征的个数与范畴型特征的个数之比(ratio numerical to categorical)、范畴型特征的个数与数值型特征的的个数之比(ratio categorical to numerical)、数据集的维度(dataset dimensionality)、数据集的维度的对数(log dataset dimensionality)、数据集转置后的维度(inverse dataset dimensionality)、数据集转置后的维度的对数(log inverse dataset dimensionality)、类别概率最小值(class probability minimum)、类别概率最大值(class probability maximum)、类别概率平均值(class probability mean)、类别概率标准差(class probability Standard Deviation)、范畴型数据最少取值数量(minimum count of categorical values)、范畴型数据最大取值数量(maximum count of categorical values)、范畴型数据取值数量的平均值(mean count of categorical values)、范畴型数据取值数量的标准差(Standard Deviation of count of categorical values)、范畴型数据取值总数量(total count of categorical values)、所有特征的峰态的最小值(kurtosis minimum)、所有特征的峰态的最大值(kurtosis maximum)、所有特征的峰态的平均值(kurtosis mean)、所有特征的峰态的标准差(kurtosis Standard Deviation)、所有特征的偏态的最小值(skewness minimum)、所有特征的偏态的最大值(skewness maximum)、所有特征的偏态的平均值(skewness mean)、所有特征的偏态的标准差(skewness Standard Deviation)、标准差比(standard deviation ratio)、所有特征的两两相关系数的平均值、类的平均熵(class entropy mean)、特征的平均熵(features entropy mean)中的至少一种。
例如,第一数据集为关于应用推荐的数据:
表1第一数据集举例
Figure PCTCN2016100835-appb-000001
Figure PCTCN2016100835-appb-000002
以统计表1中第一数据集的样本数、类别数、类的平均熵这三个数据特征元素为例,可以得到该第一数据集的数据特征为
样本数 类别数 类的平均熵
100 2 0.1
对于表1所示的第一数据集来说,每一行数据为一个样本,样本数为100。类别数为最后一列“是否喜欢”的取值种类个数,本例中“是否喜欢”有“1”和“0”两种取值,类别数为2。类的平均熵可以通过公式
Figure PCTCN2016100835-appb-000003
计算,其中,m表示类别数,j为小于等于m的正整数,πj表示每一种类别的样本数在整个样本数中的占比。前面统计出类别数为2,所以这里m=2;π1=(类别为1的样本数)/样本数,π2=(类别为0的样本数)/样本数,用C1表示类别为1的样本数,用C2表示类别为0的样本数,那么π1=C1/(C1+C2),π2=C2/(C1+C2),最终
Figure PCTCN2016100835-appb-000004
Figure PCTCN2016100835-appb-000005
假设表1中计算出的第一数据集的类的平均熵为0.1。
S202,所述计算机设备根据第二数据集,确定所述第二数据集的数据特征,所述第二数据集为所述计算机设备在获取所述第一数据集之前收到的数据集。
S203,所述计算机设备确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化。
在本发明实施例的一种实现方式中,可以将数据特征作为向量,通过计算向量之间的距离或者余弦相似度,来确定向量的变化,从而确定第一数据集的数据特征相对于第二数据集的数据特征的变化。
例如,假设确定出的第二数据集的数据特征元素为
样本数 类别数 类的平均熵
200 2 0.2
第一数据集的数据特征元素为
样本数 类别数 类的平均熵
100 2 0.1
余弦相似度计算公式为
Figure PCTCN2016100835-appb-000006
其中符号“||||”表示求模运算,根据余弦相似度计算公式计算第一数据集的数据特征与第二数据集的数据特征的余弦相似度为
Figure PCTCN2016100835-appb-000007
如果用P表示第一数据集的数据特征与自身的余弦相似度,用Q表示第一数据集的数据特征与第二数据集的数据特征的余弦相似度,则可以用P-Q来表示第一数据集的数据特征相对于第二数据集的数据特征的变化。由于第一数据集的数据特征与自身的余弦相似度为1,因此,第一数据集的数据特征相对于第二数据集的数据特征的变化可表示为1-0.99995=0.00005。
S204,当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,所述计算机设备根据所述第一数据集的数据特征确定超参数。
例如,预设数据特征阈值为0.00001,则当第一数据集的数据特征相对于第二数据集的数据特征的变化为0.00005时,超出预设数据特征阈值0.00001,则计算机设备应根据第一数据集的数据特征确定超参数。
在本发明实施例的一种实现方式中,数据处理方法200还包括超参数模型,所述根据所述第一数据集的数据特征确定超参数包括:根据所述第一数据集的数据特征和所述超参数模型确定超参数。
在本发明实施例的一种实现方式中,超参数模型的建立方式可以为:根据每一次更新模型所使用的数据集的数据特征和对应的超参数建立超参数模型。例如,使用随机森林算法建立超参数模型时,假设有两个超参数:树的棵数m和树的深度n,计算机设备保存了每一次更新模型所使用的数据集的数据特征和对应的超参数,如表2所示
表2数据集的数据特征与对应的超参数
Figure PCTCN2016100835-appb-000008
将数据集的数据特征作为建立超参数模型的特征值,超参数作为建立超参数模型的目标值,通过随机森林算法可以建立得到超参数模型。可以分别建立目标值为树的棵数m、树的深度n的超参数模型。超参数模型建立之后,将其应用于上述第一数据集的数据特征,可以得出对应 于该第一数据集的数据特征的超参数的取值范围。
在得到对应于该第一数据集的数据特征的超参数的取值范围之后,在本发明实施例的一种实现方式中,可以通过二分搜索法的方式从超参数的取值范围中确定出最优超参数,最优超参数指在确定出的超参数的取值范围中,提升数据模型效果最好的超参数。数据模型为根据数据集确定。
在确定最优超参数的过程中,使用二分搜索法,每次搜索都将超参数的取值范围从中间平均分成两半,只在提升数据模型效果更好的一半进行搜索。例如,假设得到的超参数树的棵数m的取值范围为{8,9,10,11,12},在m=8和m=12时分别求得数据模型效果,在中间值m=(8+12)/2=10处也求得数据模型效果,如果在左端8到中间值10之间的数据模型效果优于中间值10到右端12的数据模型效果,则缩小超参数树的棵树m的取值范围为{8,9,10},否则,缩小超参数树的棵树m的取值范围为{10,11,12}。依次类推,直到确定出最优超参数。
由于经过超参数模型确定出的超参数的取值范围都较小,因此采用二分搜索法的方式只需较少的搜索次数就可以确定出最优超参数。
在本发明实施例的一种实现方式中,在S204中,所述数据处理方法200还包括第二数据模型,根据所述第一数据集确定所述第二数据模型的效果;根据所述第一数据集和所述第二数据模型,确定第三数据模型;根据所述第一数据集确定所述第三数据模型的效果;确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化;当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
例如,第一数据集为表1所示的关于应用推荐的数据,则根据表1中的“ID”列、“流量套餐”列、“应用类型”列、“应用名称”列和第一数据模型,可以得出表示“是否喜欢”的预测值,根据预测值和表1中作为目标值的“是否喜欢”列,统计预测值跟目标值一致的样本数H,用H除以第一数据集的样本数100,可以得到预测值的准确率,能够反映出数据模型的效果。假设统计得到样本数H为73,则根据表1中的数据集得出的第二数据模型的效果A1为0.73;
根据第一数据集和第二数据模型确定第三数据模型时,还利用建立第二数据模型的超参数。例如,假设建立的第二数据模型为随机森林模型,建立第二数据模型的超参数有2个,分别为树的棵数m=5,树的深度n=2,则根据第二数据模型和表1中的第一数据集确定第三数据模型时,将“ID”列、“流量套餐”列、“应用类型”列、“应用名称”列作为自变量,将“是否喜欢”列作为因变量,利用超参数m=5,n=2确定第三数据模型。之后,根据表1中的“ID”列、“流量套餐”列、“应用类型”列、“应用名称”列和建立得到的第三数据模型,可以得出表示“是否喜欢”的预测值,根据预测值和表1中作为目标值的“是否喜 欢”列,统计预测值跟目标值一致的样本数J,用J除以第一数据集的样本数100,可以得到预测值的准确率,能够反映出数据模型的效果。假设统计得到样本数J为70,则根据表1中的数据集得出的第三数据模型的效果A2为0.70。则第三数据模型的效果相对于第二数据模型的效果的变化可以表示为
Figure PCTCN2016100835-appb-000009
假设预设模型效果阈值为1%,则第三数据模型的效果相对于第二数据模型的效果的变化大于预设模型效果阈值,则计算机设备根据第一数据集的数据特征确定超参数。
在本发明实施例的一种实现方式中,数据处理方法200还包括窗口长度,所述窗口长度为大于等于1的整数。
在本发明实施例的一种实现方式中,在S202和S204中,在所述根据存储的第二数据集,确定所述第二数据集的数据特征之前,数据处理方法200还包括:根据所述窗口长度确定第二数据集;当所述窗口长度大于1时,所述确定所述第二数据集的数据特征包括:确定每个所述第二数据集的数据特征;则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括:确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化;则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数包括:当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数。
在本发明实施例的一种实现方式中,根据窗口长度确定的第二数据集为计算机设备最近存储的窗口长度个数据集。
例如,假设窗口长度为3,则根据窗口长度确定出计算机设备最近存储的3个数据集,假设这3个数据集分别为数据集D1、D2、D3,则计算机设备分别确定数据集D1、D2、D3的数据特征,可以计算第一数据集的数据特征与数据集D1、D2、D3的数据特征的余弦相似度,根据余弦相似度确定第一数据集的数据特征相对于数据集D1、D2、D3的数据特征的变化,假设计算得出的余弦相似度为
Figure PCTCN2016100835-appb-000010
则第一数据集的数据特征相对于数据集D1、D2、D3的数据特征的变化可表示为
Figure PCTCN2016100835-appb-000011
Figure PCTCN2016100835-appb-000012
假设预设数据特征阈值为0.10,由于第一数据集的数据特征相对数据集D1的数据特征变化0.12大于预设数据特征阈值0.10,因此计算机设备根据第一数据集的数据特征确定超参数。
由于数据特征的变化有时是缓慢的,第一数据集的数据特征相对于计算机设备存储的最近一个数据集的数据特征的变化达不到预设数据特征阈值,但相对于计算机设备更早存储的数据集的数据特征的变化达到了预设数据特征阈值,此时应该重新确定超参数,因此确定窗口长度个内的数据特征的变化能够处理这种数据特征变化缓慢的情况,使得超参数的调整更及时的进行。
在本发明实施例的一种实现方式中,在S204中,在所述根据所述第一数据集确定所述第二数据模型的效果之前,数据处理方法200还包括:根据所述窗口长度确定第二数据模型;当所述窗口长度大于1时,所述根据所述第一数据集确定所述第二数据模型的效果包括:根据所述第一数据集确定每个所述第二数据模型的效果;则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括:确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化;则所述当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数包括:当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
在本发明实施例的一种实现方式中,根据窗口长度确定的第一数据模型为计算机设备最近存储的窗口长度个数据模型。
例如,假设窗口长度为3,则根据窗口长度确定出计算机设备最近存储的3个数据模型,假设这3个数据模型分别为M1、M2、M3,则计算机设备根据第一数据集分别计算数据模型M1、M2、M3的效果,假设计算得到的数据模型的效果为
M1的效果A1 M2的效果A2 M3的效果A3
0.7598 0.7596 0.7328
假设第二数据模型的效果A为0.7234,则第二数据模型的效果相对于数据模型M1、M2、M3的效果的变化为
A相对A1的变化 A相对A2的变化 A相对A3的变化
4.79% 4.77% 1.28%
假设预设模型效果阈值为4.7%,由于第二数据模型的效果相对于数据模型M1的效果变化4.79%、数据模型M2的效果变化4.77%大于预设模型效果阈值4.7%,因此计算机设备根据第一数据集的数据特征确定超 参数。
由于数据模型效果的变化有时是缓慢的,第二数据模型的效果相对于计算机设备存储的最近一个数据模型的效果的变化达不到预设模型效果阈值,但相对于计算机设备更早存储的数据模型的效果的变化达到了预设模型效果阈值,此时应该重新确定超参数,因此确定窗口长度个内的数据模型效果的变化能够处理这种数据模型效果变化缓慢的情况,使得超参数的调整更及时的进行。
S205,所述计算机设备根据所述确定的超参数和所述第一数据集确定第一数据模型。
S206,所述计算机设备根据所述确定的第一数据模型进行数据处理。
在本发明实施例的一种实现方式中,根据第一数据集和确定出的超参数确定第一数据模型的过程与S204中确定第三数据模型的过程相同,此处不再赘述。
在本发明实施例的一种实现方式中,该数据处理方法可以为应用推荐方法,进行数据处理可以为进行应用推荐。可以根据确定出的第一数据模型,利用用户信息和应用信息确定出需要推荐的应用。
数据处理装置通过获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;根据所述确定的超参数和所述第一数据集确定第一数据模型;根据所述确定的第一数据模型进行数据处理,提高了确定第一数据模型的效率,从而提高了进行数据处理的效率。图3是依据本发明一实施例的数据处理装置300的结构示意图。数据处理装置300包括获取模块302和处理模块304。
获取模块302,用于获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;
处理模块304,用于当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;
处理模块304,还用于根据所述确定的超参数和所述第一数据集确定第一数据模型;
处理模块304,还用于根据所述确定的第一数据模型进行数据处理。
在本发明实施例的一种实现方式中,还包括第二数据模型,所述处理模块304还用于根据所述第一数据集确定所述第二数据模型的效果;根据所述第一数据集和所述第二数据模型,确定第三数据模型;根据所述第一数据集确定所述第三数据模型的效果;确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化;当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
在本发明实施例的一种实现方式中,还包括窗口长度,所述窗口长度为大于等于1的整数。
在本发明实施例的一种实现方式中,在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前,所述处理模块还用于:
根据所述窗口长度确定第二数据集;
当所述窗口长度大于1时,确定所述第二数据集的数据特征,包括:
确定每个所述第二数据集的数据特征;
则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括:
确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化;
则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数包括:
当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数。
在本发明实施例的一种实现方式中,在所述根据所述第一数据集确定所述第二数据模型的效果之前,所述处理模块还用于:
根据所述窗口长度确定第二数据模型;
当所述窗口长度大于1时,所述根据所述第一数据集确定所述第二数据模型的效果包括:
根据所述第一数据集确定每个所述第二数据模型的效果;
则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括:
确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化;
则所述当所述第三数据模型的效果相对于所述二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数包括:
当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
在本发明实施例的一种实现方式中,还包括超参数模型,所述根据所述第一数据集的数据特征确定超参数包括:
根据所述第一数据集的数据特征和所述超参数模型确定超参数。
在本发明实施例的一种实现方式中,还根据所述第二数据模型确定所述第一数据模型。
其中,所述“模块”可以为专用集成电路(Application Specific Integrated Circuit,ASIC)、电子线路、执行一个或多个软件或固件程序的处理器和存储器、组合逻辑电路和其他提供上述功能的组件。在本发明实施例的一种实现方式中,数据处理装置300通过计算机设备的形式来实现,获取模块302可以通过计算机设备的处理器、存储器和通信接口来实现,处理模块304可以通过处理服务器的处理器和存储器来实现。
应注意,尽管图1所示的计算机设备100仅仅示出了处理器102、存储器104、通信接口106和总线108,但是在具体实现过程中,本领域的技术人员应当明白,上述数据处理装置还包含实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当明白,上述数据处理装置还可包含实现其他附加功能的硬件器件。此外,本领域的技术人员应当明白,上述数据处理装置也可仅仅包含实现本发明实施例所必须的器件,而不必包含图1中所示的全部器件。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以 采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

  1. 一种数据处理方法,包含数据处理装置利用第一数据模型对接收到的数据集进行处理的过程,所述第一数据模型根据超参数确定,其特征在于,包括以下步骤:
    所述数据处理装置获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;
    当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;
    根据所述确定的超参数和所述第一数据集确定第一数据模型;
    根据所述确定的第一数据模型进行数据处理。
  2. 如权利要求1所述的方法,其特征在于,所述方法还包括第二数据模型,根据所述第一数据集确定所述第二数据模型的效果;根据所述第一数据集和所述第二数据模型,确定第三数据模型;根据所述第一数据集确定所述第三数据模型的效果;确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化;当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
  3. 如权利要求1或2所述的方法,其特征在于,所述方法还包括窗口长度,所述窗口长度为大于等于1的整数。
  4. 如权利要求3所述的方法,其特征在于,在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前,所述方法还包括:
    根据所述窗口长度确定第二数据集;
    当所述窗口长度大于1时,确定所述第二数据集的数据特征,包括:
    确定每个所述第二数据集的数据特征;
    则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括:
    确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化;
    则当所述第一数据集的数据特征相对于所述第二数据集的数据特征 的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数包括:
    当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数。
  5. 如权利要求3所述的方法,其特征在于,在所述根据所述第一数据集确定所述第二数据模型的效果之前,所述方法还包括:
    根据所述窗口长度确定第二数据模型;
    当所述窗口长度大于1时,所述根据所述第一数据集确定所述第二数据模型的效果包括:
    根据所述第一数据集确定每个所述第二数据模型的效果;
    则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括:
    确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化;
    则所述当所述第三数据模型的效果相对于所述二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数包括:
    当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
  6. 如权利要求1至5所述的方法,其特征在于,所述方法还包括超参数模型,所述根据所述第一数据集的数据特征确定超参数包括:
    根据所述第一数据集的数据特征和所述超参数模型确定超参数。
  7. 如权利要求1至6任意一项所述的方法,其特征在于,还根据所述第二数据模型确定所述第一数据模型。
  8. 如权利要求1至7任意一项所述的方法,其特征在于,所述数据特征包括样本数、样本数的对数、特征数、特征数的对数、类别数、有缺失值的样本数、有缺失值的样本比例、有缺失值的特征数、有缺失值的特征比例、缺失值数量、缺失值比例、数值型特征的个数、范畴型特征的个数、数值型特征的个数与范畴型特征的个数之比、范畴型特征的个数与数值型特征的个数之比、数据集的维度、数据集的维度的对数、数据集转置后的维度、数据集转置后的维度的对数、类别概率最小值、 类别概率最大值、类别概率平均值、类别概率标准差、范畴型数据最少取值数量、范畴型数据最大取值数量、范畴型数据取值数量的平均值、范畴型数据取值数量的标准差、范畴型数据取值总数量、所有特征的峰态的最小值、所有特征的峰态的最大值、所有特征的峰态的平均值、所有特征的峰态的标准差、所有特征的偏态的最小值、所有特征的偏态的最大值、所有特征的偏态的平均值、所有特征的偏态的标准差、标准差比、所有特征的两两相关系数的平均值、类的平均熵、特征的平均熵中的至少一种。
  9. 一种数据处理装置,所述数据处理装置利用第一数据模型对接收到的数据集进行处理的过程,所述第一数据模型根据超参数确定,其特征在于,所述数据处理装置包括获取模块和处理模块:
    所述获取模块,用于获取第一数据集,确定所述第一数据集的数据特征相对于第二数据集的数据特征的变化,所述第二数据集为所述数据处理装置在获取所述第一数据集之前收到的数据集;
    所述处理模块,用于当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数;
    所述处理模块,还用于根据所述确定的超参数和所述第一数据集确定第一数据模型;
    所述处理模块,还用于根据所述确定的第一数据模型进行数据处理。
  10. 如权利要求9所述的装置,其特征在于,还包括第二数据模型,所述处理模块还用于根据所述第一数据集确定所述第二数据模型的效果;根据所述第一数据集和所述第二数据模型,确定第三数据模型;根据所述第一数据集确定所述第三数据模型的效果;确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化;当所述第三数据模型的效果相对于所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
  11. 如权利要求9或10所述的装置,其特征在于,还包括窗口长度,所述窗口长度为大于等于1的整数。
  12. 如权利要求11所述的装置,其特征在于,在确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化之前,所述处理模块还用于:
    根据所述窗口长度确定第二数据集;
    当所述窗口长度大于1时,确定所述第二数据集的数据特征,包括:
    确定每个所述第二数据集的数据特征;
    则所述确定所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化包括:
    确定所述第一数据集的数据特征相对于每个所述第二数据集的数据特征的变化;
    则当所述第一数据集的数据特征相对于所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数包括:
    当所述第一数据集的数据特征相对于至少一个所述第二数据集的数据特征的变化大于或等于预设数据特征阈值时,根据所述第一数据集的数据特征确定超参数。
  13. 如权利要求11所述的装置,其特征在于,在所述根据所述第一数据集确定所述第二数据模型的效果之前,所述处理模块还用于:
    根据所述窗口长度确定第二数据模型;
    当所述窗口长度大于1时,所述根据所述第一数据集确定所述第二数据模型的效果包括:
    根据所述第一数据集确定每个所述第二数据模型的效果;
    则所述确定所述第三数据模型的效果相对于所述第二数据模型的效果的变化包括:
    确定所述第三数据模型的效果相对于每个所述第二数据模型的效果的变化;
    则所述当所述第三数据模型的效果相对于所述二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数包括:
    当所述第三数据模型的效果相对于至少一个所述第二数据模型的效果的变化大于或等于预设模型效果阈值时,根据所述第一数据集的数据特征确定超参数。
  14. 如权利要求9至13所述的装置,其特征在于,还包括超参数模型,所述根据所述第一数据集的数据特征确定超参数包括:
    根据所述第一数据集的数据特征和所述超参数模型确定超参数。
  15. 如权利要求9至14任意一项所述的装置,其特征在于,还根据所述第二数据模型确定所述第一数据模型。
  16. 如权利要求9至15任意一项所述的装置,其特征在于,所述数据特征包括样本数、样本数的对数、特征数、特征数的对数、类别数、有缺失值的样本数、有缺失值的样本比例、有缺失值的特征数、有缺失值的特征比例、缺失值数量、缺失值比例、数值型特征的个数、范畴型特征的个数、数值型特征的个数与范畴型特征的个数之比、范畴型特征的个数与数值型特征的个数之比、数据集的维度、数据集的维度的对数、数据集转置后的维度、数据集转置后的维度的对数、类别概率最小值、类别概率最大值、类别概率平均值、类别概率标准差、范畴型数据最少取值数量、范畴型数据最大取值数量、范畴型数据取值数量的平均值、范畴型数据取值数量的标准差、范畴型数据取值总数量、所有特征的峰态的最小值、所有特征的峰态的最大值、所有特征的峰态的平均值、所有特征的峰态的标准差、所有特征的偏态的最小值、所有特征的偏态的最大值、所有特征的偏态的平均值、所有特征的偏态的标准差、标准差比、所有特征的两两相关系数的平均值、类的平均熵、特征的平均熵中的至少一种。
PCT/CN2016/100835 2015-11-24 2016-09-29 一种数据处理方法及装置 WO2017088587A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP16867814.2A EP3373157A4 (en) 2015-11-24 2016-09-29 Data processing method and device
US15/985,938 US20180268005A1 (en) 2015-11-24 2018-05-22 Data processing method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510824545.9 2015-11-24
CN201510824545.9A CN106776641B (zh) 2015-11-24 2015-11-24 一种数据处理方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/985,938 Continuation US20180268005A1 (en) 2015-11-24 2018-05-22 Data processing method and apparatus

Publications (1)

Publication Number Publication Date
WO2017088587A1 true WO2017088587A1 (zh) 2017-06-01

Family

ID=58763934

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/100835 WO2017088587A1 (zh) 2015-11-24 2016-09-29 一种数据处理方法及装置

Country Status (4)

Country Link
US (1) US20180268005A1 (zh)
EP (1) EP3373157A4 (zh)
CN (1) CN106776641B (zh)
WO (1) WO2017088587A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992888A (zh) * 2017-11-29 2018-05-04 深圳市智物联网络有限公司 工业设备运行状态的识别方法及服务器
US10831756B2 (en) * 2017-12-18 2020-11-10 Red Hat, Inc. Enhanced searching of data in a computer memory
CN110794227B (zh) * 2018-08-02 2022-09-02 阿里巴巴集团控股有限公司 故障检测方法、系统、设备及存储介质
CN109583470A (zh) * 2018-10-17 2019-04-05 阿里巴巴集团控股有限公司 一种异常检测的解释特征确定方法和装置
CN110033014A (zh) * 2019-01-08 2019-07-19 阿里巴巴集团控股有限公司 异常数据的检测方法及其系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117487A (zh) * 2011-02-25 2011-07-06 南京大学 一种针对视频运动目标的尺度方向自适应Mean-shift跟踪方法
CN102591917A (zh) * 2011-12-16 2012-07-18 华为技术有限公司 一种数据处理方法、系统及相关装置
US8271408B2 (en) * 2009-10-22 2012-09-18 Yahoo! Inc. Pairwise ranking-based classifier
CN103488705A (zh) * 2013-09-06 2014-01-01 电子科技大学 个性化推荐系统的用户兴趣模型增量更新方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059112A1 (en) * 2004-08-25 2006-03-16 Jie Cheng Machine learning with robust estimation, bayesian classification and model stacking
US8386401B2 (en) * 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
US8489632B1 (en) * 2011-06-28 2013-07-16 Google Inc. Predictive model training management
US9122929B2 (en) * 2012-08-17 2015-09-01 Ge Aviation Systems, Llc Method of identifying a tracked object for use in processing hyperspectral data
CN103226595B (zh) * 2013-04-17 2016-06-15 南京邮电大学 基于贝叶斯混合公共因子分析器的高维数据的聚类方法
CN103345593B (zh) * 2013-07-31 2016-04-27 哈尔滨工业大学 面向传感器单数据流的聚集异常检测方法
JP5968283B2 (ja) * 2013-08-27 2016-08-10 日本電信電話株式会社 トピックモデル学習装置とその方法、そのプログラムと記録媒体
CN104572786A (zh) * 2013-10-29 2015-04-29 华为技术有限公司 随机森林分类模型的可视化优化处理方法及装置
CN103617259A (zh) * 2013-11-29 2014-03-05 华中科技大学 一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法
DE102013224694A1 (de) * 2013-12-03 2015-06-03 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln eines Gradienten eines datenbasierten Funktionsmodells
CN104951641A (zh) * 2014-03-28 2015-09-30 日本电气株式会社 关系模型的确定方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271408B2 (en) * 2009-10-22 2012-09-18 Yahoo! Inc. Pairwise ranking-based classifier
CN102117487A (zh) * 2011-02-25 2011-07-06 南京大学 一种针对视频运动目标的尺度方向自适应Mean-shift跟踪方法
CN102591917A (zh) * 2011-12-16 2012-07-18 华为技术有限公司 一种数据处理方法、系统及相关装置
CN103488705A (zh) * 2013-09-06 2014-01-01 电子科技大学 个性化推荐系统的用户兴趣模型增量更新方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3373157A4 *

Also Published As

Publication number Publication date
CN106776641A (zh) 2017-05-31
US20180268005A1 (en) 2018-09-20
EP3373157A1 (en) 2018-09-12
EP3373157A4 (en) 2018-09-12
CN106776641B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
WO2017088587A1 (zh) 一种数据处理方法及装置
WO2020155755A1 (zh) 基于谱聚类的异常点比例优化方法、装置及计算机设备
Friedman et al. Regularization paths for generalized linear models via coordinate descent
WO2020114022A1 (zh) 一种知识库对齐方法、装置、计算机设备及存储介质
US8908978B2 (en) Signature representation of data having high dimensionality
WO2021089013A1 (zh) 空间图卷积网络的训练方法、电子设备及存储介质
CN109376273B (zh) 企业信息图谱构建方法、装置、计算机设备及存储介质
Li et al. Robust and proper learning for mixtures of gaussians via systems of polynomial inequalities
Zhao et al. Online nonnegative matrix factorization with general divergences
Ninomiya et al. AIC for the Lasso in generalized linear models
Li et al. Forest-type regression with general losses and robust forest
CN112765324B (zh) 一种概念漂移检测方法及装置
US11302108B2 (en) Rotation and scaling for optical character recognition using end-to-end deep learning
CN114936323B (zh) 图表示模型的训练方法、装置及电子设备
CN112818686A (zh) 领域短语挖掘方法、装置和电子设备
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN112348079A (zh) 数据降维处理方法、装置、计算机设备及存储介质
CN115496970A (zh) 图像任务模型的训练方法、图像识别方法以及相关装置
CN110390011B (zh) 数据分类的方法和装置
CN113033205B (zh) 实体链接的方法、装置、设备以及存储介质
Wang et al. A cross-entropy scheme for mixtures
CN113298224A (zh) 神经网络模型的重训练方法和相关产品
Szalkai Generalizing k-means for an arbitrary distance matrix
KR102203337B1 (ko) 가지친 l1 페널티를 통한 최대우도 추정 장치 및 방법
CN115018009B (zh) 对象描述方法、网络模型的训练方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16867814

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016867814

Country of ref document: EP