WO2015109781A1 - 基于期望最大确定统计模型参数的方法和装置 - Google Patents
基于期望最大确定统计模型参数的方法和装置 Download PDFInfo
- Publication number
- WO2015109781A1 WO2015109781A1 PCT/CN2014/082327 CN2014082327W WO2015109781A1 WO 2015109781 A1 WO2015109781 A1 WO 2015109781A1 CN 2014082327 W CN2014082327 W CN 2014082327W WO 2015109781 A1 WO2015109781 A1 WO 2015109781A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data points
- residual
- parameter
- cycle
- posterior probability
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013179 statistical model Methods 0.000 title claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 97
- 238000004364 calculation method Methods 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 11
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 2
- 230000001351 cycling effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000007418 data mining Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007621 cluster analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Definitions
- the present invention relates to the field of data statistics, and more particularly to a method and apparatus for determining a statistical model parameter based on a maximum expected. Background technique
- the Expectation Maximization (EM) method can find the maximum posterior probability through several iterations.
- EM methods are widely used to estimate the parameters of statistical models such as Gaussian mixture models and hidden Markov models, and can continuously estimate and learn statistical models based on new data. parameter.
- the EM method can be divided into three parts: input, EM clustering, and output.
- the input part is mainly used to input the data set including N data points into the EM cluster part in the form of a matrix; the EM cluster part is mainly used to find each data point by using the parameter of the statistical model as a known quantity.
- the posterior probability of the K cluster centers that is, the E-step, updates the parameters of the statistical model based on the obtained posterior probability, that is, the M-step, and is successively iterated by repeated iterations of the E and M steps. Optimize the parameters of the statistical model; and, the output part is mainly used to output the parameters of the statistical model.
- the iterative cost and time cost of the above EM method are high, especially in the large scale of the data set, for example, ⁇ 1000000 and/or The number of cluster centers is large, such as IO 1000.
- the technical problem to be solved by the present invention is how to minimize the iterative cost and time cost when determining the parameters of the statistical model based on the EM method.
- the present invention provides a method for determining a statistical model a method for determining a statistical model based on N data points, where N is an integer greater than or equal to 2, including:
- the posterior probability is calculated after the 1 ⁇ updating the N data points on the posterior probability of the K cluster centers matrix, and the posterior probability based on the computed updated after the t + 1 ⁇ The value of the parameter of 1 cycle;
- the receiving includes N data points and N After the data sets of the D attributes of the data points are organized into the input matrix, the method further includes: setting the scaling factors ⁇ ⁇ and k , where 0 ⁇ ⁇ 0.5, 0 ⁇ k ⁇ 0.5;
- determining the t+1th loop Determining whether the absolute value of the difference exceeds a preset threshold
- the present invention provides a device for determining a statistical model parameter, which is used for determining a parameter of a statistical model based on N data points, where N is an integer greater than or equal to 2, and is characterized in that Includes:
- An input module configured to receive a data set of D attributes including N data points and N data points to be organized into an input matrix, where D is an integer greater than or equal to 1;
- an initialization module configured to communicate with the input module, configured to set K cluster centers, initial values of the parameters, and initial values of the posterior probability matrix ⁇ according to the input matrix, ⁇ ⁇ 0 ⁇ ( ⁇ ⁇ ° Where ' a posterior probability ⁇ represents the posterior probability of the nth data point at the kth cluster center, where K is an integer greater than or equal to 2, l ⁇ n ⁇ N, l ⁇ k ⁇ K, and according to
- a residual calculation module configured to communicate with the initialization module, to calculate the parameter of the tth cycle based on the ⁇ 1 ⁇ 2 calculation, and calculate the residual of the N data points in the K cluster centers
- a selection module configured to communicate with the residual calculation module, to select M data points from the N data points based on residuals of the N data points at the K cluster centers, and Selecting L cluster centers from the K cluster centers, wherein 1 MN, l ⁇ L ⁇ K;
- a posterior probability calculation module configured to communicate with the selection module, configured to calculate a posteriori probability of the M data points on the L cluster centers according to the parameter calculated by the tth cycle
- a probability matrix update module in communication with the a posteriori probability calculation module and the residual calculation module, configured to update the N data points in the K cluster centers according to the calculated posterior probability
- a parameter value calculation module in communication with the probability matrix update module, for updating a value of the parameter of the t+1th cycle based on the calculated a posteriori probability
- a judging module configured to communicate with the residual calculation module and the parameter value calculation module, to determine whether the parameter of the t+1th loop converges, and when the parameter is converged, stop the loop and output the parameter.
- the selecting module is configured to: calculate a residual of each of the data points, and select a residual from the N data points
- the selecting module is configured to: calculate a residual of each of the data points, and select a maximum residual from the K cluster centers L cluster centers;
- the determining module is configured to:
- FIG. 1 is a flowchart of a method for determining a statistical model parameter based on EM according to Embodiment 1 of the present invention
- FIG. 2a is a flowchart of a method for determining a GMM model parameter based on EM according to Embodiment 2 of the present invention
- FIGS. 2b to 2e are implementations of the present invention
- 2f ⁇ 2g are schematic diagrams of determining a posterior probability of a GMM model based on EM to select a need to update according to a second embodiment of the present invention
- FIG. 3 is a structural block diagram of an apparatus for determining a statistical model parameter based on EM according to Embodiment 3 of the present invention
- FIG. 4 is a structural block diagram of an apparatus for determining a statistical model parameter based on EM according to Embodiment 4 of the present invention. detailed description
- the Maximum Expectation (EM) algorithm is an algorithm for finding a parameter maximum likelihood estimate or a maximum a posteriori estimate in a probabilistic model, where the probability model depends on an unobservable hidden variable (Latent Variable).
- the maximum expectation algorithm is often used in the field of data clustering for machine learning and computer vision. In addition, it is widely used in the fields of pattern recognition, signal processing, image processing, data mining, network search, and classification of information.
- the classification of information is an important part of information processing. In fact, it is the most natural treatment of information.
- Information classification aggregates information or data in an orderly manner, which helps people to have a comprehensive and in-depth understanding of things.
- information classification can be divided into structured data classification and text data classification.
- Clustering A special classification, unlike the classification analysis method, the cluster analysis is based on the principle of information similarity in the case where the class to be delineated is not known in advance (for example, there is no predetermined classification table, no predetermined category).
- a method of gathering is to reasonably divide the data set according to the principle of maximizing the similarity within the class and minimizing the similarity between the classes, and describing the different categories in an explicit or implicit way.
- Clustering and classification analysis mainly clusters or classifies objects according to their characteristics, that is, so-called objects are clustered, in order to find regular and typical patterns.
- Classification and clustering are spatial divisions of targets.
- the criteria for classification are the smallest differences within classes and the largest differences between classes.
- the difference between classification and clustering is that the classification knows the number of categories and the typical characteristics of each category in advance, while the clustering is not known in advance.
- Cluster analysis has become an important part of data mining research and application. Simply put, cluster analysis is to group array objects into multiple classes, and there is a high degree of similarity between objects in the same class, but not in the same kind. From a machine learning point of view, clustering is an unsupervised learning because it has no prior knowledge about classification. In the EM algorithm, k objects are selected first, that is, cluster centers. For each remaining object, according to its distance from each cluster center, it is assigned to the nearest cluster center, and then the average of each cluster is recalculated. Value, repeat this process until the criterion function converges.
- FIG. 1 is a flowchart of a method for determining a statistical model parameter based on EM according to Embodiment 1 of the present invention.
- the method is used to determine a parameter of a statistical model based on N data points, and N is an integer greater than or equal to 2.
- the method mainly includes:
- Step 1 Receive a data set of D attributes including N data points and N data points to form an input matrix, where D is an integer greater than or equal to 1;
- Step 2 According to the input matrix, set K cluster centers, initial values of the parameters, and initial values of the posterior probability matrix ⁇ ) ⁇ 4), wherein the posterior probability ⁇ represents the nth data The posterior probability of the point on the kth cluster center, where K is an integer greater than or equal to 2, ln N, l ⁇ k ⁇ K, and calculating ⁇ ( ⁇ ) according to x ) and the initial value of the parameter; Step 3, calculating the parameter of the tth cycle based on XJf ( ), and calculating the
- Step 4 selecting M data points from the N data points based on residuals of the N data points in the K cluster centers, and selecting L data from the K cluster centers Cluster center, where 1 MN, l ⁇ L ⁇ K;
- Step 5 Calculate a posteriori probability of the M data points on the L cluster centers according to the parameter calculated by the tth cycle;
- Step 6 updating a posterior probability matrix of the N data points on the K cluster centers according to the calculated posterior probability ⁇ 1 , and based on the calculated posterior probability ⁇ 1 updates the value of the parameter of the t+1th cycle;
- Step 7 Determine whether the parameter of the t+1th loop converges, when the parameter is convergence, stop the loop and output the parameter, and return to step 3 to repeat if the judgment result is non-convergence Perform steps 3 ⁇ 7.
- the method further includes: setting a scaling factor ⁇ ⁇ and k , where 0 ⁇ ⁇ 0.5, 0 ⁇ k ⁇ 0.5;
- the step 4 may first select M data points and then select L cluster centers.
- the step 4 may first select L cluster centers and then select M data points.
- M data with the largest residual k are selected from the N data points respectively. point.
- step 7 the convergence may be determined based on the difference between the parameter values calculated by the two cycles, which may include:
- the method for determining statistical model parameters based on EM can be used for clustering or classifying data sets, which can be Gaussian mixture models (GMM), hidden Markov models (hidden Markov models). . According to the residual between two adjacent loops to select the posterior probability that needs to be updated, it can also be applied to the clustering or classification of the parameters of the statistical model based on the K-means method.
- GMM Gaussian mixture models
- hidden Markov models hidden Markov models
- the method for determining a statistical model parameter based on the EM of the embodiment by calculating the residual, and selecting some elements of the posterior probability matrix according to the residual size to update the parameter of the statistical model and the posterior probability matrix, can maintain the accuracy of the calculation result. In this case, iterative cost and time cost when determining the parameters of the statistical model based on the EM method are reduced.
- Example 2
- FIG. 2a is a flowchart of a method for determining a GMM model parameter based on EM according to Embodiment 2 of the present invention.
- the GMM model statistics are used to cluster the data by EM to determine the GMM model parameters.
- the method mainly includes the following steps:
- Step 210 Organize the input data set into an input data matrix; set K categories and scale factors of the model.
- the input data set may be composed into an input data matrix X NXD , the row of the matrix represents a data point, and the column represents an attribute of the data point, and the element of the matrix is x n , d , indicating the nth data in the matrix The dth attribute of the point, and l ⁇ n ⁇ N, l ⁇ d ⁇ D.
- the posterior probability matrix output according to the input data matrix may be ⁇ ⁇ , the row of the matrix represents the data point index, the column represents the cluster center, and the element of the matrix is ⁇ , indicating the probability that the data point ⁇ belongs to a certain cluster center k , where l ⁇ k ⁇ K.
- a cluster center matrix m KXD can also be output, the rows of the matrix represent cluster centers, and the columns represent data point attributes, and the elements of the matrix are m k , d , indicating all data belonging to the cluster center k Point the average value of the attribute d.
- the smaller the ⁇ the faster the calculation speed, but the smaller the ⁇ , the more the accuracy loss of the calculation result will increase.
- similar users can be found to do marketing, helping market analysts to distinguish different consumer groups from the consumer database, and The consumption patterns or consumption habits of each type of consumer are summarized.
- the number of users is represented as N, each user corresponds to one row, and each user includes D attributes.
- the a posteriori probability matrix ⁇ represents the user, and the column represents the user's consumption pattern.
- the elements n and k of the matrix represent the probability that the nth user belongs to a certain consumption mode k.
- the cluster center matrix m KXD the row of the matrix represents the consumption mode, the column represents the user attribute, and the elements m k , d of the matrix represent the average value of the attributes d of all users belonging to the consumption mode k.
- the consumption pattern of the corresponding users within each cluster of data is similar, and the same or similar products can be used to market the users of the attribute, which can make the salesperson more convenient to market.
- Step 220 Randomly initialize the parameters of the GMM model and the posterior probability matrix.
- the parameters of the GMM model are randomly initialized.
- the parameters of the statistical model may include: m KXD , 7i lxk and D , where m KXD represents the output cluster center matrix, and 7i lxk represents the coefficient of the GMM model. Represents the shared variance of the GMM model.
- a certain data point is randomly selected as the cluster center m k (ie, m KXD ), where l ⁇ k ⁇ K.
- the posterior probability ⁇ andillet use the formula! ⁇ Calculating a residual ii k of each of the data points at each of the cluster centers, and may construct a residual matrix ⁇ of all the residuals, and superimposing the elements in the residual matrix in the ⁇ direction to obtain data points. Residual / 1 ::!: ⁇ . If ⁇ 1, the update formula of the posterior probability ⁇ can be,
- the update formula of the parameter m t ⁇ of the GMM model can be ⁇
- the residual point calculation formula of the data point of the tth cycle at each cluster center may be
- Step 240 Sorting the residuals/'descending order of the data points, selecting M data points with the largest residual, and recording each data point index P Dahl, the index may be the line number of the residual column matrix.
- FIGS. 2b to 2e are schematic diagrams showing a process of selecting a residual based on a method for determining a GMM model parameter based on EM according to Embodiment 2 of the present invention.
- Figure 2b is a matrix of all residuals consisting of N data points and K cluster centers.
- Figure 2d shows a schematic diagram of selecting two cluster centers with the largest residual from the K cluster centers based on the residual 1 ⁇ of each data point at each of the cluster centers.
- Data 1 and data N selected for Figure 2c Two cluster centers are selected in the rows corresponding to data 1 and data N, and the cluster centers selected in each row are shown by oblique spaces in the figure.
- 4 (MX L) data can be selected for the residual matrix, and the posterior probability of the posterior probability matrix ⁇ to be updated can be determined according to the index corresponding to the 4 data, that is, the row number and the column number. ⁇ .
- 2f ⁇ 2g are schematic diagrams of determining the posterior probability of the GMM model based on the EM to select the posterior probability to be updated according to the second embodiment of the present invention.
- the posterior probability that needs to be updated can be determined in the posterior probability matrix, and the posterior probability ⁇ that needs to be updated is represented by a square box.
- Step 250 selecting a posterior probability to be updated in the posterior probability matrix ⁇ , obtaining a parameter of the model according to the tth cycle, and updating the posterior probability combined with the posterior probability of the posterior probability matrix ⁇ , after updating Probability matrix.
- the specific update process is shown in Figure 2g.
- Step 260 Update the parameter of the t+1th loop according to the updated posterior probability.
- Step 270 Determine whether the parameter value converges. If convergence, execute step 280. If not, return to step 230.
- the model convergence condition is described above by taking the difference between the parameter values of two adjacent cycles as an example, those skilled in the art can understand that the present invention is not limited thereto.
- the user can flexibly set the conditions for judging the convergence of the model according to personal preferences and/or actual application scenarios. For example, whether the model converges can be determined by the range of the objective function variation corresponding to the model.
- Step 280 Output the parameters of the model.
- the residual is selected from 20% cluster center and 50% data point to update the parameters. Since only 10% of the posterior probability is updated in each cycle, the convergence speed is 2 ⁇ 3 times faster than the traditional scheme, and the accuracy loss of the calculation result is less than Equal to 10%.
- the parameters of the GMM model are determined based on the K-means method for clustering or classification
- the same can be According to the residual between two adjacent cycles, 20% of the cluster center and 50% of the data points are selected to update the parameters. Since only 10% of the posterior probability is updated in each cycle, the convergence speed is 1 ⁇ 2 times faster than the traditional method. At the same time, the accuracy loss of the calculated result is less than or equal to 10%.
- the method in this embodiment can be used as a module in data mining, or as a separate tool to discover some deep information distributed in the database, and summarize the characteristics of each class, or pay attention to It is placed on a specific class for further analysis; and the method of this embodiment can also be used as a preprocessing step for other analysis algorithms in the data mining algorithm.
- the method for determining a statistical model parameter based on the ⁇ by calculating the residual, and selecting some elements of the posterior probability matrix according to the residual size to update the parameter of the statistical model and the posterior probability matrix, can maintain the accuracy of the calculation result. In this case, iterative cost and time cost when determining the parameters of the statistical model based on the ⁇ method are reduced.
- FIG. 3 is a structural block diagram of an apparatus for determining a statistical model parameter based on ⁇ according to Embodiment 3 of the present invention.
- the device mainly includes:
- the input module 300 is configured to receive a data set of D attributes including N data points and N data points to be organized into an input matrix, where D is an integer greater than or equal to 1;
- the initialization module 310 is in communication with the input module 300, and is configured to set initial values of K cluster centers, initial values of the parameters, and a posteriori probability matrix Wx according to the input matrix; Where the posterior probability ⁇ represents the posterior probability of the nth data point at the kth cluster center, where K is an integer greater than or equal to 2, l ⁇ n ⁇ N, l ⁇ k ⁇ K, and And the initial value of the parameter is calculated ⁇ ⁇ ⁇ ';
- the residual calculation module 320 is in communication with the initialization module 310, configured to calculate the parameter of the tth cycle based on ⁇ ( ⁇ ), and calculate the N data points in the K cluster centers. Residual /: ucut, k -ucut , where t ⁇ l ; a selection module 330, in communication with the residual calculation module 320, for using the N data points at the K cluster centers Residually selecting M data points from the N data points, and selecting L cluster centers from the K cluster centers, wherein 1 MN, l ⁇ L ⁇ K;
- the posterior probability calculation module 340 is configured to communicate with the selection module 330, and calculate a posterior probability of the M data points on the L cluster centers according to the parameter calculated by the tth cycle: ;
- the probability matrix update module 350 is configured to communicate with the a posteriori probability calculation module 340 and the residual calculation module 320, and configured to update the one of the data points according to the calculated posterior probability.
- the parameter value calculation module 360 is in communication with the probability matrix update module 350, and is configured to update the t+1th loop based on the calculated posterior probability The value of the parameter;
- the determining module 370 is configured to communicate with the residual calculating module 320 and the parameter value calculating module 360 to determine whether the parameter of the t+1th loop converges, when the parameter is converged, Stop the loop and output the parameters.
- the selecting module 330 is configured to: calculate a residual rnch′′ of each of the data points, and select a residual from the N data points
- the selecting module 330 is further configured to: calculate a residual of each of the data points, and select, from the K cluster centers, L clusters with the largest residual Center
- the determining module 370 is configured to:
- the apparatus for determining a statistical model parameter based on the EM of the embodiment by calculating a residual, and selecting some elements of the posterior probability matrix according to the residual size to update the parameter of the statistical model and the posterior probability matrix, can maintain the accuracy of the calculation result. In this case, iterative cost and time cost when determining the parameters of the statistical model based on the EM method are reduced.
- the device 400 may be a host server having computing power, a personal computer PC, or a portable computer or terminal that is portable.
- the specific embodiments of the present invention do not limit the specific implementation of the computing node.
- the apparatus 400 includes a processor 410, a communications interface 420, a memory 430, and a bus 440.
- the processor 410, the communication interface 420, and the memory 430 complete communication with each other through the bus 440.
- Communication interface 420 is for communicating with network devices, including network devices such as virtual machine management centers, shared storage, and the like.
- the processor 410 is for executing a program.
- the processor 410 may be a central processing unit CPU, or an Application Specific Integrated Circuit (ASIC), or one or more integrated circuits configured to implement embodiments of the present invention.
- ASIC Application Specific Integrated Circuit
- the memory 430 is used to store files.
- the memory 430 may include a high speed RAM memory and may also include a non-volatile memory such as at least one disk memory.
- Memory 430 can also be a memory array.
- Memory 430 may also be partitioned, and the blocks may be combined into virtual volumes according to certain rules.
- the above program may be program code including computer operating instructions.
- the processor 410 can be used to determine parameters of the statistical model based on the N data points by running the program. Where N is an integer greater than or equal to 2; specifically, the processor 410 can perform the following steps by running the program execution:
- the posterior probability is calculated after the 1 ⁇ updating the N data points on the posterior probability of the K cluster centers matrix, and the posterior probability based on the computed updated after the t + 1 ⁇ The value of the parameter of 1 cycle;
- the selecting based on the residuals of the N data points at the K cluster centers, M data points from the N data points, and from the K
- the cluster center selects L cluster centers, and includes: calculating a residual of each of the data points, and selecting L cluster centers having the largest residual from the cluster centers;
- the method further includes:
- determining whether the value of the parameter of the t+1th loop converges includes:
- the function is implemented in the form of computer software and sold or used as a stand-alone product, it may be considered to some extent that all or part of the technical solution of the present invention (for example, a part contributing to the prior art) is It is embodied in the form of computer software products.
- the computer software product is typically stored in a computer readable non-volatile storage medium, including instructions for causing a computer device (which may be a personal computer, server, or network device, etc.) to perform all of the methods of various embodiments of the present invention. Or part of the step.
- the foregoing storage medium includes various media that can store program codes, such as a USB flash drive, a removable hard disk, a Read-Only Memory (ROM), a Random Access Memory (RAM), a magnetic disk, or an optical disk.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于期望最大确定统计模型参数的方法和装置,其中,该方法包括:根据输入矩阵,设定K个聚类中心、参数的初始值以及后验概率矩阵μΝxK(μn,k)的初始值μ
0
ΝxK (μ
0
n,k )以及根据μ
0
ΝxK (μ
0
n,k )以及参数的初值计算μ
1
ΝxK (μ
1
n,k );基于μ1
ΝxK(μ1
n,k)计算得到第t次循环的参数,并计算N个数据点在K个聚类中心的残差r
t
n,k =|μ
t
n,k -μ
t-1
n,k |;根据残差选取M个数据点的L个聚类中心;根据第t次循环计算得到的参数计算M个数据点在L个聚类中心上的后验概率μ
t+1
n,k ;根据所计算出的后验概率μ
t+1
n,k 更新N个数据点在K个聚类中心上的后验概率矩阵μ
t+1
ΝxK(μ
t+1
n,k ),并基于计算出的后验概率μ
t+1
n,k 更新第t+1次循环的参数的值;判断第t+1次循环的参数是否收敛,在参数为收敛时,停止循环输出参数。可以降低确定统计模型的参数时的迭代成本以及时间成本。
Description
基于期望最大确定统计模型参数的方法和装置
技术领域
本发明涉及数据统计领域, 尤其涉及一种基于期望最大确定统计模型参 数的方法和装置。 背景技术
期望最大(Expectation Maximization, EM)方法可以通过若干次迭代寻 找最大后验概率。 目前, EM方法广泛应用于对例如高斯混合模型(Gaussian mixture models )、 隐马尔科夫模型(hidden Markov models)等统计模型的参 数进行估计, 可不间断地根据新的数据中估计并学习统计模型的参数。
通常, EM方法可以划分为输入、 EM聚类和输出这三部分。 其中, 输入 部分主要用于将包括 N个数据点的数据集以矩阵的形式输入到 EM聚类部分; EM聚类部分主要用于通过将统计模型的参数作为已知量来求各数据点属于 K个聚类中心的后验概率、 即 E歩骤, 基于所求得的后验概率来更新统计模 型的参数、 即 M歩骤, 并通过 E歩骤和 M歩骤的反复迭代来逐歩优化统计模 型的参数; 以及, 输出部分主要用于输出统计模型的参数。
由于在 E歩骤中需要计算所有数据点在所有聚类中心的后验概率矩阵, 上述 EM方法的迭代成本以及时间成本较高, 尤其在数据集的规模较大、 例 如^^ 1000000和 /或聚类中心的数量较多、 例如 IO 1000时。 发明内容
有鉴于此, 本发明要解决的技术问题是, 如何尽量降低基于 EM方法确 定统计模型的参数时的迭代成本以及时间成本。
为了解决上述技术问题, 第一方面, 本发明提供了一种确定统计模型参
数的方法, 用于基于 N个数据点确定统计模型的参数, 其中 N为大于或等于 2 的整数, 包括:
接收包括 N个数据点以及 N个数据点的 D个属性的数据集以组织成输入 矩阵, 其中 D为大于或等于 1的整数;
根据所述输入矩阵, 设定 K个聚类中心、 所述参数的初始值以及后验概 率矩阵 %< ^;)的初始值 < ;), 其中, 后验概率 ^表示第 n个数据点 在第 k个聚类中心上的后验概率, 其中 K为大于或等于 2的整数, l n N, 1 k K, 以及根据 μ μ' 以及所述参数的初始值计算 H, ;
基于 计算得到第 t次循环的所述参数, 并计算所述 N个数 据点在所述 K个聚类中心的残差 = , 其中 t^l;
基于所述 N个数据点在所述 K个聚类中心的残差从所述 N个数据点中选 出 M个数据点, 并从所述 K个聚类中心选出 L个聚类中心, 其中 1 M N、 1
根据第 t次循环计算得到的所述参数计算所述 M个数据点在所述 L个聚类 中心上的后验概率
根据所计算出的所述后验概率 ^ 1更新所述 N个数据点在所述 K个聚类 中心上的后验概率矩阵 ,并基于计算出的所述后验概率 ^ 1更新第 t+1次循环的所述参数的值;
判断第 t+1次循环的所述参数是否收敛, 在所述参数为收敛时, 停止循 环并输出所述参数。
结合第一方面, 在第一种可能的实现方式中, 所述基于所述 N个数据点 在所述 K个聚类中心的残差从所述 N个数据点中选出 M个数据点,并从所述 K 个聚类中心选出 L个聚类中心, 包括:
计算每个所述数据点的残差 =∑ ,, 并从所述 N个数据点中选出残差
/:二 1
Λ最大的 M个数据点;
根据各数据点在各所述聚类中心的残差 ilk,针对所述 M个数据点中的每 个数据点, 分别从所述 K个聚类中心中选出残差 k最大的 L个聚类中心。
结合第一方面, 在第二种可能的实现方式中, 所述基于所述 N个数据点 在所述 K个聚类中心的残差从所述 N个数据点中选出 M个数据点,并从所述 K 个聚类中心选出 L个聚类中心, 包括: 计算每个所述数据点的残差 =∑ , 并从所述 K个聚类中心中选出残 差 最大的 L个聚类中心;
根据各数据点在各所述聚类中心的残差 k,针对所述 K个聚类中心的每 个聚类中心, 分别从所述 N个数据点中选出残差 k最大的 M个数据点。
结合第一方面以及第一方面的第一种可能的实现方式至第二种可能的 实现方式中的任意一个, 在第三种可能的实现方式中, 在所述接收包括 N个 数据点以及 N个数据点的 D个属性的数据集以组织成输入矩阵之后, 还包括: 设定比例因子 λη和 k, 其中 0<λη 0.5, 0< k^0.5;
根据所述比例因子 λ^Βλ]^算所述 M和所述 L的值,其中, M= nN,L= kK。 结合第一方面以及第一方面的第一种可能的实现方式至第三种可能的 实现方式中的任意一个, 在第四种可能的实现方式中, 判断第 t+1次循环的
判断所述差的绝对值是否超出预设的阈值;
若所有所述差的绝对值都小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数收敛;
若任一所述差的绝对值不小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数不收敛。
为了解决上述技术问题, 第二方面, 本发明提供了一种确定统计模型参 数的装置, 用于基于 N个数据点确定统计模型的参数, 其中 N为大于或等于 2 的整数, 其特征在于, 包括:
输入模块,用于接收包括 N个数据点以及 N个数据点的 D个属性的数据集 以组织成输入矩阵, 其中 D为大于或等于 1的整数;
初始化模块, 与所述输入模块相通信, 用于根据所述输入矩阵, 设定 K 个聚类中心、 所述参数的初始值以及后验概率矩阵 ^ 的初始值 μΝ 0 χΚ (μη° ) ' 其中, 后验概率 ^表示第 η个数据点在第 k个聚类中心上的后验 概率,其中 K为大于或等于 2的整数, l ^n^N, l ^k^K, 以及根据
以及所述参数的初始值计算 ^( ^);
残差计算模块, 与所述初始化模块相通信, 用于基于 ^½ 计算得 到第 t次循环的所述参数, 并计算所述 N个数据点在所述 K个聚类中心的残
; 选择模块, 与所述残差计算模块相通信, 用于基于所述 N个数据点在所 述 K个聚类中心的残差从所述 N个数据点中选出 M个数据点,并从所述 K个聚 类中心选出 L个聚类中心, 其中 1 M N、 l ^L^K;
后验概率计算模块,与所述选择模块相通信,用于根据第 t次循环计算得 到的所述参数计算所述 M个数据点在所述 L个聚类中心上的后验概率
概率矩阵更新模块, 与所述后验概率计算模块以及所述残差计算模块相 通信,用于根据所计算出的所述后验概率 更新所述 N个数据点在所述 K个 聚类中心上的后验概率矩阵 0 ^;
参数值计算模块, 与所述概率矩阵更新模块相通信, 用于基于计算出的 所述后验概率 更新第 t+1次循环的所述参数的值; 以及
判断模块, 与所述残差计算模块以及所述参数值计算模块相通信, 用于 判断第 t+1次循环的所述参数是否收敛, 在所述参数为收敛时, 停止循环并 输出所述参数。
结合第二方面, 在第一种可能的实现方式中, 所述选择模块被配置为: 计算每个所述数据点的残差 , 并从所述 N个数据点中选出残差
/:二 1
Λ最大的 M个数据点;
根据各数据点在各所述聚类中心的残差 k,针对所述 M个数据点中的每 个数据点, 分别从所述 K个聚类中心中选出残差 k最大的 L个聚类中心。
结合第二方面, 在第二种可能的实现方式中, 所述选择模块被配置为: 计算每个所述数据点的残差 , 并从所述 K个聚类中心中选出残 差 最大的 L个聚类中心;
根据各数据点在各所述聚类中心的残差 k,针对所述 K个聚类中心的每 个聚类中心, 分别从所述 N个数据点中选出残差 k最大的 M个数据点。
结合第二方面以及第二方面的第一种可能的实现方式至第二种可能的 实现方式中的任意一个, 在第三种可能的实现方式中, 所述初始化模块被配 置为, 设定比例因子 λη和 k, 其中 0<λη 0.5, 0< k^0.5;
根据所述比例因子 λ^Βλ]^算所述 M和所述 L的值,其中, M= nN,L= kK。 结合第二方面以及第二方面的第一种可能的实现方式至第三种可能的 实现方式中的任意一个, 在第四种可能的实现方式中, 所述判断模块被配置 为:
计算在第 t+1次循环计算得到的所述参数与在第 t次循环计算得到的所述 参数之间的差;
判断所述差的绝对值是否超出预设的阈值;
若所有所述差的绝对值都小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数收敛;
若任一所述差的绝对值不小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数不收敛。
可见, 本发明实施例的基于 EM确定统计模型参数的方法, 通过计算残 差, 并根据残差大小选取后验概率矩阵的部分元素以更新统计模型的参数和 后验概率矩阵, 可以在保持计算结果精度的情况下, 降低基于 EM方法确定 统计模型的参数时的迭代成本以及时间成本。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了 本发明的示例性实施例、 特征和方面, 并且用于解释本发明的原理。
图 1为本发明实施例一的基于 EM确定统计模型参数的方法的流程图; 图 2a为本发明实施例二的基于 EM确定 GMM模型参数的方法的流程图; 图 2b〜2e为本发明实施例二的基于 EM确定 GMM模型参数的方法的选 取残差过程的示意图;
图 2f〜2g为本发明实施例二的基于 EM确定 GMM模型参数以选取需要 更新的后验概率的示意图;
图 3为本发明实施例三的基于 EM确定统计模型参数的装置的结构框图; 以及
图 4为本发明实施例四的基于 EM确定统计模型参数的装置的结构框图。 具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、 特征和方面。 附 图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施 例的各种方面, 但是除非特别指出, 不必按比例绘制附图。
在这里专用的词"示例性 "意为 "用作例子、 实施例或说明性"。 这里作为 "示例性"所说明的任何实施例不必解释为优于或好于其它实施例。
另外, 为了更好的说明本发明, 在下文的具体实施方式中给出了众多的 具体细节。 本领域技术人员应当理解, 没有某些具体细节, 本发明同样可以 实施。 在一些实例中, 对于本领域技术人员熟知的方法、 手段、 元件和电路 未作详细描述, 以便于凸显本发明的主旨。
在统计计算中, 最大期望 (EM) 算法是在概率 (probabilistic ) 模型中 寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法 观测的隐藏变量 (Latent Variable )。 最大期望算法经常用在机器学习、 计算 机视觉的数据聚类 (Data Clustering) 领域, 另外, 还被广泛应用到模式识 别、 信号处理、 图像处理、 数据挖掘、 网络搜索、 信息的分类等领域。
举例而言, 信息的分类(classification)是信息处理的重要组成部分。 事 实上, 它是人们对信息最自然而然的处理。 信息分类将信息或数据有序地聚 合在一起, 有助于人们对事物的全面和深入了解。 根据处理对象的不同, 信 息分类可以分为结构化数据分类和文本数据分类两种。 聚类(clustering) 是
一种特殊的分类, 与分类分析法不同, 聚类分析是在预先不知道欲划定类的 情况下 (如, 没有预定的分类表、 没有预定的类目), 根据信息相似度原则 进行信息集聚的一种方法。 聚类的目的是根据最大化类内的相似性、 最小化 类间的相似性这一原则合理的划分数据集合, 并用显式或隐式的方法描述不 同的类别。 聚类与分类分析主要是根据事物的特征对其进行聚类或分类, 即 所谓物以类聚, 以期从中发现规律和典型模式。 分类和聚类都是对目标进行 空间划分, 划分的标准是类内差别最小而类间差别最大。 分类和聚类的区别 在于分类事先知道类别数和各类的典型特征, 而聚类则事先不知道。
聚类分析已经成为数据挖掘研究和应用中的一个重要组成部分。简单地 讲, 聚类分析就是将数组对象分组成多个类, 在同一个类中的对象之间具有 较高的相似度, 而不同类中的对象差别较大。 从机器学习的观点来看, 聚类 是一种无指导的学习, 因为它没有关于分类的先验知识。 在 EM算法首先随 即选取 k个对象即聚类中心, 对剩余的每个对象, 根据其与各个聚类中心的 距离, 将它赋给最近的聚类中心, 然后重新计算每个聚类的平均值, 不断的 重复这个过程, 直到准则函数收敛为止。
实施例 1
图 1为本发明实施例一的基于 EM确定统计模型参数的方法的流程图。该 方法用于基于 N个数据点确定统计模型的参数, N为大于或等于 2的整数, 如 图 1所示, 该方法主要包括:
歩骤 1、 接收包括 N个数据点以及 N个数据点的 D个属性的数据集以组织 成输入矩阵, 其中 D为大于或等于 1的整数;
歩骤 2、根据所述输入矩阵, 设定 K个聚类中心、所述参数的初始值以及 后验概率矩阵 ^ ^)的初始值 ^ 4), 其中, 后验概率 ^表示第 n个 数据点在第 k个聚类中心上的后验概率, 其中 K为大于或等于 2的整数, l n
N, l^k^K, 以及根据 x )以及所述参数的初始值计算 ^(^); 歩骤 3、 基于 XJf( )计算得到第 t次循环的所述参数, 并计算所述
歩骤 4、 基于所述 N个数据点在所述 K个聚类中心的残差从所述 N个数据 点中选出 M个数据点, 并从所述 K个聚类中心选出 L个聚类中心, 其中 1 M N、 l^L^K;
歩骤 5、根据第 t次循环计算得到的所述参数计算所述 M个数据点在所述 L 个聚类中心上的后验概率 ;
歩骤 6、 根据所计算出的所述后验概率 ^ 1更新所述 N个数据点在所述 K 个聚类中心上的后验概率矩阵 ½ϊ), 并基于计算出的所述后验概率 ^ 1 更新第 t+1次循环的所述参数的值; 以及
歩骤 7、 判断第 t+1次循环的所述参数是否收敛, 在所述参数为收敛时, 停止循环并输出所述参数, 并在判断结果为不收敛的情况下返回歩骤 3以重 复执行所述歩骤 3~7。
在一种可能的实现方式中, 在所述歩骤 1之后, 还可以包括: 设定比例 因子 λη和 k, 其中 0<λη 0.5, 0< k^0.5;
根据所述比例因子 λ^Βλ]^算所述 M和所述 L的值,其中, M= nN,L= kK。 在如上确定了所述 M和所述 L的具体数值的情况下, 在一种可能的具体 实现方式中,所述歩骤 4可以先选择 M个数据点、再选择 L个聚类中心。例如, 所述歩骤 4可具体包括: 计算每个所述数据点的残差 =| , 并从所述 N个
/:二 1
数据点中选出残差 Λ最大的 M个数据点; 根据各数据点在各所述聚类中心的 残差 k, 针对所述 M个数据点中的每个数据点, 分别从所述 K个聚类中心中
选出残差 k最大的 L个聚类中心。
在另一种可能的具体实现方式中, 所述歩骤 4可以先选择 L个聚类中心、 再选择 M个数据点。 例如, 所述歩骤 4可具体包括: 计算每个所述数据点的 残差 = ί , 并从所述 Κ个聚类中心中选出残差 最大的 L个聚类中心; 根 π 1
据各数据点在各所述聚类中心的残差 k,针对所述 K个聚类中心的每个聚类 中心, 分别从所述 N个数据点中选出残差 k最大的 M个数据点。
此外, 在一种可能的实现方式中, 在歩骤 7中可基于两次循环所计算出 的参数值之差来判断是否收敛, 具体可以包括:
计算在第 t+1次循环计算得到的所述参数与在第 t次循环计算得到的所述 参数之间的差; 判断所述差的绝对值是否超出预设的阈值; 若所有所述差的 绝对值都小于所述预设的阈值, 则确定所述第 t+1次循环的所述参数收敛; 若任一所述差的绝对值不小于所述预设的阈值, 则确定所述第 t+1次循环的 所述参数不收敛。
需要说明的是, 基于 EM确定统计模型参数的方法可用于对数据集进行 聚类或分类, 该统计模型可以为混合高斯模型 (Gaussian mixture models, GMM) , 隐马尔科夫模型 (hidden Markov models )。 根据相邻两次循环之间 残差以选取需要更新的后验概率, 还可以应用于基于 K均值 (K-means ) 方 法求统计模型的参数进行聚类或分类的情况。
本实施例的基于 EM确定统计模型参数的方法, 通过计算残差, 并根据 残差大小选取后验概率矩阵的部分元素以更新统计模型的参数和后验概率 矩阵, 可以在保持计算结果精度的情况下, 降低基于 EM方法确定统计模型 的参数时的迭代成本以及时间成本。
实施例 2
图 2a为本发明实施例二的基于 EM确定 GMM模型参数的方法的流程图。 本实施例通过 GMM模型统计数据, 以 EM对数据进行聚类确定 GMM模型参 数, 如图 2a所示, 该方法主要包括以下歩骤:
歩骤 210、将输入的数据集组织成输入数据矩阵; 设定模型的 K个类别和 比例因子。
具体地, 可以将输入的数据集组成为输入数据矩阵 XNXD, 该矩阵的行表 示数据点, 列表示数据点的属性, 该矩阵的元素为 xn,d, 表示该矩阵中第 n个 数据点的第 d个属性, 且 l≤n≤N, l≤d≤D。 例如, 若采用加州大学欧文分校 ( University of Californialrvine , UCI) 的 covtype数据集, 该数据集有 581012 个数据点,每个数据有 12个属性,对于该数据集的输入数据矩阵取 N=581012, D=12 o
根据输入数据矩阵输出的后验概率矩阵可以为 μΝΧΚ, 该矩阵的行代表数 据点索引, 列代表聚类中心, 该矩阵的元素为 μ , 表示数据点 η属于某一聚 类中心 k的概率, 其中 l≤k≤K。
根据输入数据矩阵还可以输出聚类中心矩阵 mKXD,该矩阵的行代表聚类 中心, 列代表数据点属性, 该矩阵的元素为 mk,d, 表示隶属于该聚类中心 k 的所有数据点在属性 d的平均值。
设定 K个类别和比例因子可以为 {K = ΙΟΟ,λ, = 0.2, λη = 0.2},其中 Κ表示类别 总数为 100, λ1^Π λη为比例因子。 根据用户设定的比例因子 λ^Πλ^ 利用 Μ=ληΝ、 L= kK可以计算 M和 L的值,其中 0<λη 1, 0< k^ 1。 k = 0.2和 λη = 0.2 表示选取 20%的聚类中心和 20%的数据点以更新 GMM模型的参数以及后验 概率。 通常情况下, λ^Ι^越小, 计算速度越快, 但是 λ^Ι^越小, 计算结果 的精度损失会增加。 其中, 0<λη 0.5, 0< k 0.5时, 有利于加快基于 EM确
定 GMM模型参数的速度, 一般情况下, 建议用户选取 4 = An=0.2。
需要说明是,尽管以 {K = 10( k = 0.2An = 0.2}作为示例,但是 K、 4和 的 取值范围不限于此, 用户可以根据实际情况选取, 例如还可以选取
{Κ = 100,^=1,^=1}、 {K = 100, k =0.2,λη = 0.5}等, 只要满足 2 Κ、 0<λη 1禾口 0< k l的条件即可。 举例而言,基于 EM进行聚类以确定 GMM模型参数用于对用户进行聚类 时, 可以发现相似的用户来做营销, 帮助市场分析人员从消费者数据库中区 分出不同的消费群体来, 并且概括出每一类消费者的消费模式或者消费习 惯, 在该应用场景中, 用户数量表示为 N, 每个用户对应一行, 每个用户的 包括 D个属性。 在该场景下, 后验概率矩阵 ^ 中行代表用户, 列代表用户 的消费方式, 该矩阵的元素 n,k表示第 n个用户属于某一消费方式 k的概率。 聚类中心矩阵 mKXD, 该矩阵的行代表消费方式, 列代表用户属性, 该矩阵的 元素 mk,d表示隶属于消费方式 k的所有用户在属性 d的平均值。 每一聚类的数 据内部对应的用户的消费模式相似, 可用相同的或相似的产品对于该属性的 用户进行营销, 可以使得销售人员更方便的进行营销。
歩骤 220、 随机初始化 GMM模型的参数以及后验概率矩阵。
在接收到输入数据矩阵、设定因子以及 K值等数值后, 随机初始化 GMM 模型的参数。 该统计模型的参数可以包括: mKXD、 7ilxk和 D, 其中 mKXD表 示输出聚类中心矩阵, 7ilxk表示 GMM模型的系数, 。表示 GMM模型的共 享方差。
随机选择某个数据点作为聚类中心 mk (即 mKXD), 其中 l≤k≤K。
将 GMM模型的 7¾ (7ilxk) 参数初始化为:
¾=1/K
其中 为输入数据矩阵第 d列的均值。 初始化后验概率矩阵的元素 , 对于输入数据矩阵的所有数据点, 当 k = argminj || xn -mj ||2时, =l。
歩骤 230、 计算各数据点在各聚类中心的残差 r = , 其中 t表小 循环次数并且 0<t T, T表示最大循环次数。 具体地, 若 t=l, 根据上一歩骤中得到的后验概率 ^以及各个参数, 以 计算第一次循环的后验概率矩阵 K的后验概率 , 根据该后验概率矩阵 以计算第一次循环的 GMM模型的参数。
根据后验概率 λ和 „ , 利用公式!^
以计算各所述数据点 在各所述聚类中心的残差 iik, 并可以将所有残差组成的残差矩阵 ^, 将该 残差矩阵中的元素按 κ方向叠加, 得到数据点的残差/1::!:^。 若^1时, 后验概率 ^的更新公式可以为,
ND
根据该残差公式可以得到残差矩阵 κ, 将残差矩阵 κ按 Κ方向叠加, 计算 公式为:
〉:
/:二
可以得到数据点的残差/:以及由所有数据点的残差组成的残差列矩阵 。
歩骤 240、对数据点的残差 /'降序排序, 选出残差最大的 M个数据点, 并 记录每个数据点索引 P„, 该索引可以为残差列矩阵的行号。根据各数据点在 各所述聚类中心的残差 k,针对所述 M个数据点中的每个数据点,分别从所 述 K个聚类中心中选出残差最大的 L个聚类中心, 并记录每个聚类中心的索 引 , 该索引可以为残差矩阵的行号和列号。
图 2b〜2e为本发明实施例二的基于 EM确定 GMM模型参数的方法的选 取残差过程的示意图。 图 2b为所有残差组成的矩阵, 该残差矩阵由 N个数据 点和 K个聚类中心组成。 图 2c为残差矩阵向 K方法叠加生成的残差列矩阵, 包含 N个数据点, 该残差列矩阵的残差为 假设 M=2、 L=2时, 从所述 N个 数据点中选出残差最大的 2个数据点, 分别为数据 1和数据 N, 如图 2c中方格 框所示。 图 2d表示根据各数据点在各所述聚类中心的残差1^ ,从 K个聚类中心中 选出残差最大的 2个聚类中心的示意图。 针对图 2c选出的数据 1和数据 N, 在
数据 1和数据 N对应的行中分别选取 2个聚类中心, 每行中选出的聚类中心如 图中斜线空格所示。
如图 2e所示, 对于该残差矩阵可以选择出 4 (MX L) 个数据, 根据该 4 个数据对应的索引即行号和列号, 可以确定后验概率矩阵 ^中需要更新的 后验概率 ^。
图 2f〜2g为本发明实施例二的基于 EM确定 GMM模型的参数以选取需 要更新的后验概率的示意图。 如图 2f所示, 根据残差矩阵选出的索引号 ^和 Ρη , 可以在后验概率矩阵 中确定需要更新的后验概率 以方格框表 示需要更新的后验概率 ^。
歩骤 250、在后验概率矩阵 ^中选出需要更新的后验概率 , 根据第 t 次循环得到模型的参数,更新后验概率 结合后验概率矩阵 ^中未更新 的后验概率, 更新后验概率矩阵 。 具体的更新过程如图 2g所示。 歩骤 260、 根据更新后验概率 以更新第 t+1次循环的参数。
歩骤 270、 判断参数值是否收敛, 若收敛则执行歩骤 280, 若不收敛则返 回歩骤 230。
具体地,计算在第 t+1次循环的参数值与在第 t次循环的参数值之间的差; 判断所述参数的差的绝对值是否超出预定的阈值, 并在任一所述参数的差的 绝对值超出所述预定的阈值的情况下, 输出不收敛的判断结果。 若参数不收 敛, 在余下的循环中 (2≤ ≤Γ ), 重复歩骤 230至歩骤 260, 直至参数达到收 敛状态。 需要说明的是, 尽管以两次相邻的循环的参数值之差作为示例介绍了模 型收敛条件如上,但本领域技术人员能够理解,本发明应不限于此。事实上, 用户完全可根据个人喜好和 /或实际应用场景灵活设定判断模型收敛的条件。
例如可以通过模型所对应的目标函数变化范围判定模型是否收敛。
歩骤 280、 输出模型的参数。
在一种可能的实施方式中,基于 EM确定 GMM模型的参数以进行聚类或 分类时, 若用户选取的参数为^ = 100, = 0.2, ^ = 0.5}, 根据相邻两次循环之 间残差选取 20%的聚类中心和 50%的数据点以更新参数, 由于每次循环仅更 新 10%的后验概率, 收敛速度较传统方案快 2〜3倍, 同时计算结果的精度损 失小于等于 10%。
在一种可能的实施方式中,基于 K-means方法确定 GMM模型的参数以进 行聚类或分类时, 若用户选取的参数为 {K = 100, ^ = 0.2, λη = 0.5}, 同样可以根 据相邻两次循环之间残差选取 20%的聚类中心和 50%的数据点以更新参数, 由于每次循环仅更新 10%的后验概率, 收敛速度较传统方法快 1〜2倍, 同时 计算结果的精度损失小于等于 10%。
需要说明的是, 本实施例的方法可以作为数据挖掘中的一个模块, 也可 以作为一个单独的工具以发现数据库中分布的一些深层的信息, 并且概括出 每一类的特点, 或者把注意力放在某一个特定的类上以作进一歩的分析; 并 且,本实施例的方法也可以作为数据挖掘算法中其他分析算法的一个预处理 歩骤。
本实施例的基于 ΕΜ确定统计模型参数的方法, 通过计算残差, 并根据 残差大小选取后验概率矩阵的部分元素以更新统计模型的参数和后验概率 矩阵, 可以在保持计算结果精度的情况下, 降低基于 ΕΜ方法确定统计模型 的参数时的迭代成本以及时间成本。
实施例 3
图 3为本发明实施例三的基于 ΕΜ确定统计模型参数的装置的结构框图。 如图 3所示, 该装置主要包括:
输入模块 300, 用于接收包括 N个数据点以及 N个数据点的 D个属性的数 据集以组织成输入矩阵, 其中 D为大于或等于 1的整数;
初始化模块 310, 与所述输入模块 300相通信, 用于根据所述输入矩阵, 设定 K个聚类中心、所述参数的初始值以及后验概率矩阵 Wx ;)的初始值
' 其中, 后验概率 ^表示第 n个数据点在第 k个聚类中心上的后验 概率,其中 K为大于或等于 2的整数, l ^n^N, l ^k^K, 以及根据 以及所述参数的初始值计算 μ μη' ;
残差计算模块 320,与所述初始化模块 310相通信,用于基于 ^( ^)计 算得到第 t次循环的所述参数, 并计算所述 N个数据点在所述 K个聚类中 心的残差 /: u„,k -u„ , 其中 t^ l ; 选择模块 330, 与所述残差计算模块 320相通信, 用于基于所述 N个数据 点在所述 K个聚类中心的残差从所述 N个数据点中选出 M个数据点, 并从所 述 K个聚类中心选出 L个聚类中心, 其中 1 M N、 l ^L^K;
后验概率计算模块 340,与所述选择模块 330相通信,用于根据第 t次循环 计算得到的所述参数计算所述 M个数据点在所述 L个聚类中心上的后验概率 : ;
概率矩阵更新模块 350, 与所述后验概率计算模块 340以及所述残差计算 模块 320相通信, 用于根据所计算出的所述后验概率 更新所述 Ν个数据点 在所述 Κ个聚类中心上的后验概率矩阵 κ (μ^); 参数值计算模块 360, 与所述概率矩阵更新模块 350相通信, 用于基于计 算出的所述后验概率 更新第 t+1次循环的所述参数的值; 以及
判断模块 370, 与所述残差计算模块 320以及所述参数值计算模块 360相 通信, 用于判断第 t+1次循环的所述参数是否收敛, 在所述参数为收敛时,
停止循环并输出所述参数。
在一种可能的实施方式中, 所述初始化模块 310还被配置为, 设定比例 因子 λ^Πλ^ 其中 0<λη 0.5, 0< k^0.5; 根据所述比例因子 ^口^计算所述 M和所述 L的值, 其中, Μ=ληΝ, L= kK。
在一种可能的实施方式中, 所述选择模块 330被配置为: 计算每个所述数据点的残差 r„' = , 并从所述 N个数据点中选出残差
/:二 1
最大的 M个数据点;
根据各数据点在各所述聚类中心的残差 k,针对所述 M个数据点中的每 个数据点, 分别从所述 K个聚类中心中选出残差 k最大的 L个聚类中心。
在一种可能的实施方式中, 所述选择模块 330还被配置为: 计算每个所述数据点的残差 , 并从所述 K个聚类中心中选出残 差 最大的 L个聚类中心;
根据各数据点在各所述聚类中心的残差 k,针对所述 K个聚类中心的每 个聚类中心, 分别从所述 N个数据点中选出残差 k最大的 M个数据点。
在一种可能的实施方式中, 所述判断模块 370被配置为:
计算在第 t+1次循环计算得到的所述参数与在第 t次循环计算得到的所述 参数之间的差;
判断所述差的绝对值是否超出预设的阈值;
若所有所述差的绝对值都小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数收敛;
若任一所述差的绝对值不小于所述预设的阈值, 则确定所述第 t+1次循
环的所述参数不收敛。
本实施例的基于 EM确定统计模型参数的装置, 通过计算残差, 并根据 残差大小选取后验概率矩阵的部分元素以更新统计模型的参数和后验概率 矩阵, 可以在保持计算结果精度的情况下, 降低基于 EM方法确定统计模型 的参数时的迭代成本以及时间成本。
实施例 4
图 4为本发明实施例四的基于 EM确定统计模型参数的装置的结构框图。 所述装置 400可以是具备计算能力的主机服务器、 个人计算机 PC、 或者可携 带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现 做限定。
所述装置 400包括处理器 (processor) 410、 通信接口 (Communications Interface) 420、 存储器 (memory) 430和总线 440。 其中, 处理器 410、 通信 接口 420、 以及存储器 430通过总线 440完成相互间的通信。
通信接口 420用于与网络设备通信, 其中网络设备包括例如虚拟机管理 中心、 共享存储等。
处理器 410用于执行程序。 处理器 410可能是一个中央处理器 CPU, 或者 是专用集成电路 ASIC (Application Specific Integrated Circuit) , 或者是被配 置成实施本发明实施例的一个或多个集成电路。
存储器 430用于存放文件。存储器 430可能包含高速 RAM存储器,也可能 还包括非易失性存储器 (non-volatile memory) , 例如至少一个磁盘存储器。 存储器 430也可以是存储器阵列。 存储器 430还可能被分块, 并且所述块可按 一定的规则组合成虚拟卷。
在一种可能的实施方式中, 上述程序可为包括计算机操作指令的程序代 码。 处理器 410通过运行该程序可用于基于 N个数据点确定统计模型的参数,
其中 N为大于或等于 2的整数; 具体地, 处理器 410可通过运行该程序执行来 执行以下歩骤:
接收包括 N个数据点以及 N个数据点的 D个属性的数据集以组织成输入 矩阵, 其中 D为大于或等于 1的整数;
根据所述输入矩阵, 设定 K个聚类中心、 所述参数的初始值以及后验概 率矩阵 %< ^;)的初始值 < ;), 其中, 后验概率 ^表示第 n个数据点 在第 k个聚类中心上的后验概率, 其中 K为大于或等于 2的整数, l n N, 1 k K, 以及根据 μ μ' 以及所述参数的初始值计算 H, ;
基于 计算得到第 t次循环的所述参数, 并计算所述 N个数 据点在所述 K个聚类中心的残差 = , 其中 t^l;
基于所述 N个数据点在所述 K个聚类中心的残差从所述 N个数据点中选 出 M个数据点, 并从所述 K个聚类中心选出 L个聚类中心, 其中 1 M N、 1
根据第 t次循环计算得到的所述参数计算所述 M个数据点在所述 L个聚类 中心上的后验概率
根据所计算出的所述后验概率 ^ 1更新所述 N个数据点在所述 K个聚类 中心上的后验概率矩阵 ,并基于计算出的所述后验概率 ^ 1更新第 t+1次循环的所述参数的值;
判断第 t+1次循环的所述参数是否收敛, 在所述参数为收敛时, 停止循 环并输出所述参数。
在一种可能的实施方式中, 所述基于所述 N个数据点在所述 K个聚类中 心的残差从所述 N个数据点中选出 M个数据点, 并从所述 K个聚类中心选出 L 水聚类中心, 包括:
计算每个所述数据点的残差 r„' =∑ ,, 并从所述 N个数据点中选出残差
/:二 1
Λ最大的 M个数据点;
根据各数据点在各所述聚类中心的残差 ilk,针对所述 M个数据点中的每 个数据点, 分别从所述 K个聚类中心中选出残差 k最大的 L个聚类中心。
在一种可能的实施方式中, 所述基于所述 N个数据点在所述 K个聚类中 心的残差从所述 N个数据点中选出 M个数据点, 并从所述 K个聚类中心选出 L 个聚类中心, 包括: 计算每个所述数据点的残差 , 并从所述 Κ个聚类中心中选出残 差 最大的 L个聚类中心;
根据各数据点在各所述聚类中心的残差 k,针对所述 K个聚类中心的每 个聚类中心, 分别从所述 N个数据点中选出残差 k最大的 M个数据点。
在一种可能的实施方式中, 在所述接收包括 N个数据点以及 N个数据点 的 D个属性的数据集以组织成输入矩阵之后, 还包括:
设定比例因子 λη和 k, 其中 0<λη 0.5, 0< k^0.5;
根据所述比例因子 λ^Βλ]^算所述 M和所述 L的值,其中, M= nN,L= kK。 在一种可能的实施方式中, 判断第 t+1次循环的所述参数的值是否收敛, 包括:
计算在第 t+1次循环计算得到的所述参数与在第 t次循环计算得到的所述 参数之间的差;
判断所述差的绝对值是否超出预设的阈值;
若所有所述差的绝对值都小于所述预设的阈值, 则确定所述第 t+1次循
环的所述参数收敛;
若任一所述差的绝对值不小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数不收敛。
可见, 本发明实施例的基于 EM确定统计模型参数的方法, 通过计算残 差, 并根据残差大小选取后验概率矩阵的部分元素以更新统计模型的参数和 后验概率矩阵, 可以在保持计算结果精度的情况下, 降低基于 EM方法确定 统计模型的参数时的迭代成本以及时间成本。
本领域普通技术人员可以意识到, 本文所描述的实施例中的各示例性单 元及算法歩骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。 这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设 计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描 述的功能, 但是这种实现不应认为超出本发明的范围。
如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使 用时, 则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有 技术做出贡献的部分)是以计算机软件产品的形式体现的。 该计算机软件产 品通常存储在计算机可读取的非易失性存储介质中,包括若干指令用以使得 计算机设备(可以是个人计算机、 服务器、 或者网络设备等)执行本发明各 实施例方法的全部或部分歩骤。 而前述的存储介质包括 U盘、 移动硬盘、 只 读存储器 (ROM, Read-Only Memory )、 随机存取存储器 (RAM, Random Access Memory), 磁碟或者光盘等各种可以存储程序代码的介质。
以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限 于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易 想到变化或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明的保护 范围应以所述权利要求的保护范围为准。
Claims
1、一种确定统计模型参数的方法,用于基于 N个数据点确定统计模型的 参数, 其中 N为大于或等于 2的整数, 其特征在于, 包括:
接收包括 N个数据点以及 N个数据点的 D个属性的数据集以组织成输入 矩阵, 其中 D为大于或等于 1的整数;
根据所述输入矩阵, 设定 K个聚类中心、 所述参数的初始值以及后验概 率矩阵 %< ^;)的初始值 < ;), 其中, 后验概率 ^表示第 n个数据点 在第 k个聚类中心上的后验概率, 其中 K为大于或等于 2的整数, l n N, 1 k K, 以及根据 μ μ' 以及所述参数的初始值计算 H, ;
基于 计算得到第 t次循环的所述参数, 并计算所述 N个数 据点在所述 K个聚类中心的残差 = , 其中 t^l;
基于所述 N个数据点在所述 K个聚类中心的残差从所述 N个数据点中选 出 M个数据点, 并从所述 K个聚类中心选出 L个聚类中心, 其中 1 M N、 1
根据第 t次循环计算得到的所述参数计算所述 M个数据点在所述 L个聚类 中心上的后验概率
根据所计算出的所述后验概率 ^ 1更新所述 N个数据点在所述 K个聚类 中心上的后验概率矩阵 ,并基于计算出的所述后验概率 ^ 1更新第 t+1次循环的所述参数的值;
判断第 t+1次循环的所述参数是否收敛, 在所述参数为收敛时, 停止循 环并输出所述参数。
2、 根据权利要求 1所述的方法, 其特征在于, 所述基于所述 N个数据点 在所述 K个聚类中心的残差从所述 N个数据点中选出 M个数据点,并从所述 K 水聚类中心选出 L个聚类中心, 包括:
计算每个所述数据点的残差 r„' =∑ ,, 并从所述 N个数据点中选出残差
/:二 1
Λ最大的 M个数据点;
根据各数据点在各所述聚类中心的残差 ilk,针对所述 M个数据点中的每 个数据点, 分别从所述 K个聚类中心中选出残差 k最大的 L个聚类中心。
3、 根据权利要求 1所述的方法, 其特征在于, 所述基于所述 N个数据点 在所述 K个聚类中心的残差从所述 N个数据点中选出 M个数据点,并从所述 K 个聚类中心选出 L个聚类中心, 包括: 计算每个所述数据点的残差 , 并从所述 Κ个聚类中心中选出残 差 最大的 L个聚类中心;
根据各数据点在各所述聚类中心的残差 k,针对所述 K个聚类中心的每 个聚类中心, 分别从所述 N个数据点中选出残差 k最大的 M个数据点。
4、 根据权利要求 1-3中任一项所述的方法, 其特征在于, 在所述接收包 括 N个数据点以及 N个数据点的 D个属性的数据集以组织成输入矩阵之后,还 包括:
设定比例因子 λη和 k, 其中 0<λη 0.5, 0< k^0.5;
根据所述比例因子 λ^Βλ]^算所述 M和所述 L的值,其中, M= nN,L= kK。
5、 根据权利要求 1-4中任一项所述的方法, 其特征在于, 判断第 t+1次循 环的所述参数的值是否收敛, 包括:
计算在第 t+1次循环计算得到的所述参数与在第 t次循环计算得到的所述 参数之间的差;
判断所述差的绝对值是否超出预设的阈值;
若所有所述差的绝对值都小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数收敛;
若任一所述差的绝对值不小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数不收敛。
6、一种确定统计模型参数的装置,用于基于 N个数据点确定统计模型的 参数, 其中 N为大于或等于 2的整数, 其特征在于, 包括:
输入模块,用于接收包括 N个数据点以及 N个数据点的 D个属性的数据集 以组织成输入矩阵, 其中 D为大于或等于 1的整数;
初始化模块, 与所述输入模块相通信, 用于根据所述输入矩阵, 设定 K 个聚类中心、 所述参数的初始值以及后验概率矩阵 ^ ^;)的初始值 μΝ。» 其中, 后验概率 ^表示第 η个数据点在第 k个聚类中心上的后验 概率,其中 K为大于或等于 2的整数, l ^n^N, l ^k^K, 以及根据
以及所述参数的初始值计算 μ μη' ;
残差计算模块, 与所述初始化模块相通信, 用于基于 XJfc 计算得 到第 t次循环的所述参数, 并计算所述 N个数据点在所述 K个聚类中心的残
; 选择模块, 与所述残差计算模块相通信, 用于基于所述 N个数据点在所 述 K个聚类中心的残差从所述 N个数据点中选出 M个数据点,并从所述 K个聚 类中心选出 L个聚类中心, 其中 1 M N、 l ^L^K;
后验概率计算模块,与所述选择模块相通信,用于根据第 t次循环计算得 到的所述参数计算所述 M个数据点在所述 L个聚类中心上的后验概率 概率矩阵更新模块, 与所述后验概率计算模块以及所述残差计算模块相 通信,用于根据所计算出的所述后验概率 fi更新所述 N个数据点在所述 K个
聚类中心上的后验概率矩阵 C ^;
参数值计算模块, 与所述概率矩阵更新模块相通信, 用于基于计算出的 所述后验概率 更新第 t+1次循环的所述参数的值; 以及
判断模块, 与所述残差计算模块以及所述参数值计算模块相通信, 用于 判断第 t+1次循环的所述参数是否收敛, 在所述参数为收敛时, 停止循环并 输出所述参数。
7、 根据权利要求 6所述的装置, 其特征在于, 所述选择模块被配置为: 计算每个所述数据点的残差 r„' =j , 并从所述 N个数据点中选出残差
/:二 1
最大的 M个数据点;
根据各数据点在各所述聚类中心的残差 k,针对所述 M个数据点中的每 个数据点, 分别从所述 K个聚类中心中选出残差 k最大的 L个聚类中心。
8、 根据权利要求 6所述的装置, 其特征在于, 所述选择模块被配置为: 计算每个所述数据点的残差 , 并从所述 K个聚类中心中选出残 差 最大的 L个聚类中心;
根据各数据点在各所述聚类中心的残差 k,针对所述 K个聚类中心的每 个聚类中心, 分别从所述 N个数据点中选出残差 k最大的 M个数据点。
9、 根据权利要求 6-8中任一项所述的装置, 其特征在于, 所述初始化模 块被配置为, 设定比例因子 λ^Πλ^ 其中 0<λη 0.5, 0< k^0.5; 根据所述比 例因子 ^t ^†算所述 M和所述 L的值, 其中, Μ=ληΝ, L= kK。
10、 根据权利要求 6-9中任一项所述的装置, 其特征在于, 所述判断模 块被配置为:
计算在第 t+1次循环计算得到的所述参数与在第 t次循环计算得到的所述 参数之间的差;
判断所述差的绝对值是否超出预设的阈值;
若所有所述差的绝对值都小于所述预设的阈值, 则确定所述第 t+i次循 环的所述参数收敛;
若任一所述差的绝对值不小于所述预设的阈值, 则确定所述第 t+1次循 环的所述参数不收敛。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410040503.1A CN104809098A (zh) | 2014-01-27 | 2014-01-27 | 基于期望最大确定统计模型参数的方法和装置 |
CN201410040503.1 | 2014-01-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015109781A1 true WO2015109781A1 (zh) | 2015-07-30 |
Family
ID=53680750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2014/082327 WO2015109781A1 (zh) | 2014-01-27 | 2014-07-16 | 基于期望最大确定统计模型参数的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN104809098A (zh) |
WO (1) | WO2015109781A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961086A (zh) * | 2019-01-28 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN113221995A (zh) * | 2021-04-30 | 2021-08-06 | 中南民族大学 | 基于半监督深度分类算法的数据分类方法、设备及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764991B (zh) * | 2018-05-22 | 2021-11-02 | 江南大学 | 基于K-means算法的供应链信息分析方法 |
CN109993234B (zh) * | 2019-04-10 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 一种无人驾驶训练数据分类方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050164290A1 (en) * | 2000-01-13 | 2005-07-28 | Affymetrix, Inc. | Computer software for sequence selection |
CN102938138A (zh) * | 2012-10-27 | 2013-02-20 | 广西工学院 | 一种基于多元统计模型的分形小波自适应图像去噪方法 |
CN103077530A (zh) * | 2012-09-27 | 2013-05-01 | 北京工业大学 | 一种基于改进混合高斯和图像剪切的运动目标检测方法 |
CN103377316A (zh) * | 2013-07-15 | 2013-10-30 | 浙江大学 | 基于统计分析和贝叶斯集成的青霉素生产过程监测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005531853A (ja) * | 2002-06-28 | 2005-10-20 | アプレラ コーポレイション | Snp遺伝子型クラスタリングのためのシステムおよび方法 |
MY152935A (en) * | 2010-06-22 | 2014-12-15 | Mimos Berhad | Method and apparatus for adaptive data clustering |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
-
2014
- 2014-01-27 CN CN201410040503.1A patent/CN104809098A/zh active Pending
- 2014-07-16 WO PCT/CN2014/082327 patent/WO2015109781A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050164290A1 (en) * | 2000-01-13 | 2005-07-28 | Affymetrix, Inc. | Computer software for sequence selection |
CN103077530A (zh) * | 2012-09-27 | 2013-05-01 | 北京工业大学 | 一种基于改进混合高斯和图像剪切的运动目标检测方法 |
CN102938138A (zh) * | 2012-10-27 | 2013-02-20 | 广西工学院 | 一种基于多元统计模型的分形小波自适应图像去噪方法 |
CN103377316A (zh) * | 2013-07-15 | 2013-10-30 | 浙江大学 | 基于统计分析和贝叶斯集成的青霉素生产过程监测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961086A (zh) * | 2019-01-28 | 2019-07-02 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN109961086B (zh) * | 2019-01-28 | 2024-05-31 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN113221995A (zh) * | 2021-04-30 | 2021-08-06 | 中南民族大学 | 基于半监督深度分类算法的数据分类方法、设备及装置 |
CN113221995B (zh) * | 2021-04-30 | 2023-06-30 | 中南民族大学 | 基于半监督深度分类算法的数据分类方法、设备及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104809098A (zh) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | A survey on soft subspace clustering | |
US10073906B2 (en) | Scalable tri-point arbitration and clustering | |
Yang et al. | Efficient image retrieval via decoupling diffusion into online and offline processing | |
US10163034B2 (en) | Tripoint arbitration for entity classification | |
US9524449B2 (en) | Generation of visual pattern classes for visual pattern recognition | |
Panday et al. | Feature weighting as a tool for unsupervised feature selection | |
Wu et al. | Multi-label boosting for image annotation by structural grouping sparsity | |
CN116261731A (zh) | 基于多跳注意力图神经网络的关系学习方法与系统 | |
WO2018166273A1 (zh) | 高维图像特征匹配方法和装置 | |
WO2020114108A1 (zh) | 聚类结果的解释方法和装置 | |
WO2018036547A1 (zh) | 一种数据处理的方法以及装置 | |
US20170061257A1 (en) | Generation of visual pattern classes for visual pattern regonition | |
CN110598061A (zh) | 一种多元图融合的异构信息网嵌入方法 | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
Chehreghani et al. | Information theoretic model validation for spectral clustering | |
CN109145143A (zh) | 图像检索中的序列约束哈希算法 | |
WO2015109781A1 (zh) | 基于期望最大确定统计模型参数的方法和装置 | |
CN112101087B (zh) | 一种面部图像身份去识别方法、装置及电子设备 | |
CN110110119B (zh) | 图像检索的方法、装置及计算机可读存储介质 | |
CN115293919A (zh) | 面向社交网络分布外泛化的图神经网络预测方法及系统 | |
CN107391594A (zh) | 一种基于迭代视觉排序的图像检索方法 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
US10956129B1 (en) | Using genetic programming to create generic building blocks | |
CN108549915A (zh) | 基于二值权重的图像哈希码训练模型算法及分类学习方法 | |
Nikulin et al. | Unsupervised dimensionality reduction via gradient-based matrix factorization with two adaptive learning rates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14879963 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14879963 Country of ref document: EP Kind code of ref document: A1 |