WO2020155755A1 - 基于谱聚类的异常点比例优化方法、装置及计算机设备 - Google Patents

基于谱聚类的异常点比例优化方法、装置及计算机设备 Download PDF

Info

Publication number
WO2020155755A1
WO2020155755A1 PCT/CN2019/117355 CN2019117355W WO2020155755A1 WO 2020155755 A1 WO2020155755 A1 WO 2020155755A1 CN 2019117355 W CN2019117355 W CN 2019117355W WO 2020155755 A1 WO2020155755 A1 WO 2020155755A1
Authority
WO
WIPO (PCT)
Prior art keywords
abnormal
euclidean distance
current
point
cluster
Prior art date
Application number
PCT/CN2019/117355
Other languages
English (en)
French (fr)
Inventor
杨志鸿
徐亮
阮晓雯
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020155755A1 publication Critical patent/WO2020155755A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Definitions

  • This application relates to the technical field of intelligent decision-making, and in particular to a method, device and computer equipment for optimizing the proportion of abnormal points based on spectral clustering.
  • Outlier analysis is the process of checking whether the data has input errors and contains unreasonable data. It is very dangerous to ignore the existence of outliers. Including the outliers in the calculation and analysis process of the data without eliminating them will cause bad results. influences.
  • the cloud server receives massive data and needs to perform outlier detection on it, if the massive data is only regarded as a data set with only one center, the unsupervised model used for outlier detection will have a poor discrimination effect , Can not accurately detect abnormal points.
  • the setting of the proportion of abnormal points before the detection of the unsupervised model depends on user experience, which makes the setting difficult.
  • the embodiments of the present application provide a method, device and computer equipment for optimizing the proportion of abnormal points based on spectral clustering, aiming to solve the problem that the massive data in the prior art is regarded as a data set with only one center, which will lead to the detection of abnormal points.
  • the unsupervised model has a poor discrimination effect and cannot accurately detect abnormal points.
  • an embodiment of the present application provides a method for optimizing the proportion of abnormal points based on spectral clustering, which includes:
  • the selected clusters are classified according to the isolated forest model and the proportion of current abnormal points to obtain the data points of the current abnormal category, and the average Euclidean distance between each data point of the current abnormal category and the center of the normal point is obtained As the average Euclidean distance of the next state;
  • the average Euclidean distance variation range is obtained;
  • the current anomaly point ratio plus the step length is used as the optimal anomaly point ratio
  • the selected clusters are classified according to the isolated forest model and the optimal proportion of abnormal points to obtain the optimal classification result.
  • an embodiment of the present application provides an abnormal point ratio optimization device based on spectral clustering, which includes:
  • the spectral clustering unit is configured to receive a set of data points to be classified, divide the nodes corresponding to the set of data points to be classified into multiple subgraphs through spectral clustering, and obtain clusters corresponding to each subgraph;
  • the isolated forest model training unit is used to obtain data points corresponding to each cluster included in a plurality of clusters, and construct a data point corresponding to each cluster according to the preset current abnormal point ratio and each cluster.
  • the normal point center obtaining unit is configured to classify the selected cluster according to the isolated forest model and the current abnormal point ratio to obtain the normal point center of the normal category in the classification result;
  • the first average distance calculation unit is configured to obtain the average Euclidean distance between each data point of the abnormal category in the classification result and the center of the normal point as the current state average Euclidean distance;
  • the first abnormal point ratio update unit is configured to subtract a preset step size from the current abnormal point ratio to update the current abnormal point ratio
  • the second average distance calculation unit is used to classify the selected clusters according to the isolated forest model and the current anomaly point ratio to obtain the data points of the current anomaly category, and obtain each data point of the current anomaly category and all
  • the average Euclidean distance of the center of the normal point is taken as the average Euclidean distance of the next state
  • the average distance change range obtaining unit is used to obtain the average Euclidean distance change range by dividing the difference between the average Euclidean distance of the next state and the average Euclidean distance of the current state by the step length;
  • An amplitude judging unit configured to determine that the average Euclidean distance variation amplitude exceeds a preset variation amplitude threshold
  • An optimal ratio obtaining unit configured to, if the average Euclidean distance variation range exceeds the variation range threshold, use the current abnormal point ratio plus the step length as the optimal abnormal point ratio;
  • the optimal classification unit is used to classify the selected clusters according to the isolated forest model and the optimal anomaly point ratio to obtain an optimal classification result.
  • an embodiment of the present application provides a computer device, which includes a memory, a processor, and a computer program stored on the memory and running on the processor, and the processor executes the computer
  • the program implements the method for optimizing the proportion of abnormal points based on spectral clustering in the first aspect.
  • the embodiments of the present application also provide a computer-readable storage medium, wherein the computer-readable storage medium stores a computer program, and when the computer program is executed by a processor, the processor executes the aforementioned first
  • the method for optimizing the proportion of abnormal points based on spectral clustering is also provided.
  • FIG. 1 is a schematic flowchart of a method for optimizing the proportion of abnormal points based on spectral clustering according to an embodiment of the application;
  • FIG. 2 is a schematic diagram of a sub-process of the method for optimizing the proportion of abnormal points based on spectral clustering according to an embodiment of the application;
  • FIG. 3 is a schematic diagram of another sub-process of the method for optimizing the proportion of abnormal points based on spectral clustering according to an embodiment of the application;
  • FIG. 4 is a schematic diagram of another sub-process of the method for optimizing the proportion of abnormal points based on spectral clustering according to an embodiment of the application;
  • FIG. 5 is a schematic diagram of another process of the method for optimizing the proportion of abnormal points based on spectral clustering according to an embodiment of the application;
  • FIG. 6 is a schematic block diagram of an abnormal point ratio optimization device based on spectral clustering provided by an embodiment of the application;
  • FIG. 7 is a schematic block diagram of the subunits of the device for optimizing the proportion of abnormal points based on spectral clustering according to an embodiment of the application;
  • FIG. 8 is a schematic block diagram of another subunit of the apparatus for optimizing the proportion of abnormal points based on spectral clustering according to an embodiment of the application;
  • FIG. 9 is a schematic block diagram of another subunit of the device for optimizing the proportion of abnormal points based on spectral clustering according to an embodiment of the application.
  • FIG. 10 is another schematic block diagram of an abnormal point ratio optimization device based on spectral clustering provided by an embodiment of the application.
  • FIG. 11 is a schematic block diagram of a computer device provided by an embodiment of the application.
  • FIG. 1 is a schematic flowchart of a method for optimizing the proportion of abnormal points based on spectral clustering provided by an embodiment of the application.
  • the method for optimizing the proportion of abnormal points based on spectral clustering is applied to a server, and the method is installed on the server.
  • the method includes steps S101 to S181.
  • S101 Receive a set of data points to be classified, divide nodes corresponding to the set of data points to be classified into multiple subgraphs through spectral clustering, and obtain clusters corresponding to each subgraph.
  • the cloud server of the enterprise receives the massive user data uploaded by each user terminal
  • these user data can be regarded as a collection of data points to be classified.
  • the set of data points to be classified may be the user's insurance policy data, including at least fields such as the name of the applicant, the age of the applicant, the number of the applicant's insurance policy, the amount of insurance, the insurance period, and the phone number of the applicant.
  • one of the field data can be selectively selected as the main data, and the remaining fields are used as the attribute data of the above-mentioned main field.
  • the insurance period field is used as the main data, and fields such as the telephone number and ID number of the applicant are used as its attribute data.
  • the nodes After converting each data point in the set of data points to be classified into a node, the nodes can be divided by spectral clustering to obtain multiple subgraphs, and each subgraph can be regarded as a cluster cluster.
  • step S101 includes:
  • S1015 Transpose each feature vector in the target feature vector set into a column vector and combine them in sequence to obtain a target vector matrix
  • Spectral clustering is a clustering method based on graph theory, which achieves the purpose of clustering sample data by clustering the eigenvectors of the Laplacian matrix of sample data.
  • Spectral clustering can be understood as mapping data in a high-dimensional space to a low-dimensional space, and then clustering in the low-dimensional space using other clustering algorithms (such as k-means).
  • n is the number of nodes corresponding to the compensation data
  • xi and xj respectively represent any node
  • represents the standard deviation of the node
  • s ij constitutes a similarity matrix
  • the similarity matrix corresponding to the node corresponding to the claims data constructed from the input similarity matrix includes the ⁇ -adjacent method, the K-adjacent method and the fully connected method.
  • the calculation formula of the fully connected method is as shown in Equation 1.
  • Equation 2 calculates the diagonal matrix according to Equation 2, which is specifically as follows:
  • D i represent like elements of the matrix and each row by the diagonal matrix composed of D i w ij represents the similarity matrix element in row i and column j.
  • each corresponding feature vector in the Laplacian matrix can be transposed into a column vector to form a target vector matrix.
  • the row vectors in the target vector matrix are clustered by the k-means algorithm to obtain sub-clusters with the same number of target clusters.
  • the cloud server receives the set of data points to be classified uploaded by the business end and completes the spectral clustering grouping, if the initial current abnormal point ratio is set to 0.5 (for example, the initial current abnormal The point ratio is denoted as m 0 ), which means that the expected ratio of normal point samples and abnormal point samples in the classification result of the isolated forest model is 1:1. Since it is assumed that there are more normal points than abnormal points, the abnormal point category contains a large number of misclassified normal points. When the proportion of abnormal points decreases, normal points in the abnormal point category will be eliminated. At this time, an isolated forest model for outlier detection is constructed according to the preset current anomaly point ratio and each cluster, as a model basis for subsequent adjustment of the current anomaly point ratio and reclassification.
  • step S110 includes:
  • a data attribute B is randomly selected, and a split value p 2 is determined by the ratio of the data attribute B and the current abnormal point; then the left subtree and the right subtree are divided according to the split value p2 of the data attribute B to obtain The secondary left subtree and the secondary right subtree corresponding to the left subtree, and the secondary left subtree and the secondary right subtree corresponding to the right subtree. Iterate in this way until one of the following conditions is met: (1) there is one piece of data or multiple pieces of the same data in D1; (2) the isolated tree reaches the maximum height. In the process of formation of each isolated tree, the randomly obtained data attributes and the split values corresponding to the data attributes are different, which leads to the isolated forest including multiple isolated trees. If the proportion of abnormal points in the isolated tree is set appropriately, the detection effect of abnormal points can be improved.
  • each cluster is classified according to its corresponding isolated forest model.
  • S120 Classify the selected cluster clusters according to the isolated forest model and the current abnormal point ratio to obtain the normal point center of the normal category in the classification result.
  • the selected cluster when one of the multiple clusters is selected as the target cluster cluster to obtain the optimal anomalous point ratio as an example, the selected cluster should be selected according to the current anomaly point ratio set initially.
  • the normal point center corresponding to the data point of the normal category in the classification result can be determined, and this normal point center is constant in the subsequent process.
  • step S120 includes:
  • S121 Classify the selected cluster cluster according to the isolated forest model and the current proportion of abnormal points to obtain a classification result corresponding to the selected cluster cluster; wherein the classification result includes normal category data Points and data points of abnormal categories;
  • the selected clusters are first classified according to the isolated forest model and the current abnormal point ratio, and a classification result including data points of normal categories and data points of abnormal categories is obtained.
  • a classification result including data points of normal categories and data points of abnormal categories is obtained.
  • the center of the normal point is fixed, the proportion of abnormal points can be adjusted continuously, and the optimal abnormality can be obtained according to the change trend of the specified parameters (such as the average Euclidean distance between each data point of the current abnormal category and the center of the normal point) Point ratio.
  • the Euclidean distance between each data point of the abnormal category and the center of the normal point needs to be calculated and averaged to obtain the abnormality in the classification result.
  • the average Euclidean distance between each data point of the category and the center of the normal point is taken as the average Euclidean distance of the current state. From the average Euclidean distance of the current state, it can be seen whether each data point of the abnormal category is far away from the center of the normal point.
  • S140 Subtract a preset step length from the current abnormal point ratio to update the current abnormal point ratio.
  • the purpose of subtracting the preset step size from the current abnormal point ratio is to continuously adjust the current abnormal point ratio so as to obtain the optimal abnormal point ratio through the trial method.
  • the current abnormal point ratio is updated by subtracting the step size from the current abnormal point ratio. At this time, there is no need to determine the normal point center again, only the data points of the abnormal category in the classification result are obtained, and then the abnormality is calculated. The average Euclidean distance between each data point of the category and the center of the normal point is taken as the average Euclidean distance of the next state.
  • S160 Divide the difference between the average Euclidean distance in the next state and the average Euclidean distance in the current state by the step length to obtain the average Euclidean distance variation range.
  • the average Euclidean distance of the current state obtained in step S130 is regarded as d 0
  • the average Euclidean distance of the next state obtained in the first execution of step S150 is regarded as d 1
  • the average Euclidean distance obtained in the second execution of step S150 is regarded as d 1
  • the average Euclidean distance of the next state is regarded as d 2 (the corresponding average Euclidean distance of the current state at this time is d 1 )
  • the average Euclidean distance of the next state obtained from the Nth execution of step S150 is regarded as d N (this time corresponds to The current state average Euclidean distance is d N-1 ). If the preset step length is recorded as l, the average Euclidean distance variation range is calculated by (d N -d N-1 )/l, where N is a positive integer greater than 0.
  • the latest current anomaly point ratio at this moment is not the optimal anomaly point ratio.
  • the latest current anomaly point ratio at this moment can be considered as the current anomaly point ratio of the previous state as The optimal proportion of abnormal points.
  • the variation of the average Euclidean distance exceeds the preset threshold of variation, it means that some real abnormal points are classified as normal points, resulting in a sudden increase in the average Euclidean distance from the abnormal point to the normal center point.
  • the last state of the abnormal point ratio (that is, the current abnormal point ratio plus the step size) can be used as the optimal abnormal point ratio.
  • S181 Classify the selected clusters according to the isolated forest model and the optimal anomaly point ratio to obtain an optimal classification result.
  • the selected clusters can be classified according to the isolated forest model and the optimal anomaly point ratio to obtain the optimal classification result, and obtain the classification effect Good unsupervised classification model.
  • the method further includes:
  • Step S190 If the average Euclidean distance variation range does not exceed the variation range threshold, subtract the step size from the current abnormal point ratio to update the current abnormal point ratio, update the current state average Euclidean distance through the next state average Euclidean distance, and return Step S150 is executed.
  • the variation range of the average Euclidean distance still maintains a smooth transition, it means that the reduced proportion of abnormal points is not enough to significantly affect the average Euclidean distance between each data point of the abnormal category and the center of the normal point.
  • the current anomaly point ratio is subtracted from the step size to update the current anomaly point ratio, and the average Euclidean distance of the next state is used to update the average Euclidean distance of the new current state.
  • d 1 is used as the average Euclidean distance in the current state
  • (m 0 -l) is used as the current abnormal point ratio to return to the execution step S150 is used to obtain d 2
  • (d 2 -d1)/l is used as the average Euclidean distance variation range, and so on, until the execution of the average Euclidean distance variation range exceeds the preset variation range threshold.
  • step S181 the method further includes:
  • the optimal classification result corresponding to the set of data points to be classified and the optimal abnormal point ratio are obtained in the server, the optimal classification result and the The optimal abnormal point ratio is sent to the user end corresponding to the set of data points to be classified, so as to realize effective notification of the classification result of the user end.
  • the optimal classification result and the optimal abnormal point ratio can be sent to the cloud server in time at this time, and the corresponding data point set to be classified can be matched by the cloud server.
  • the set of data points to be classified corresponding to the optimal classification result and the optimal abnormal point ratio may also be synchronized to the cloud server.
  • the unique machine identification code such as IMEI serial number
  • the storage area corresponding to the optimal classification result and the optimal abnormal point ratio in the server can be formatted It can be deleted to effectively release storage space.
  • the method before formatting and deleting the storage area corresponding to the optimal classification result and the optimal abnormal point ratio, the method further includes:
  • the number of iterations is sent to the client corresponding to the set of data points to be classified, and the number of iterations is synchronously sent to the cloud server.
  • the preset current anomaly point ratio and the optimal anomaly point ratio may be compared The difference in the ratio is divided by the step size to obtain the number of iterations. After the number of iterations is known, the number of iterations can be sent to the user terminal corresponding to the set of data points to be classified, and the user terminal can accumulate experience in setting the optimal abnormal point ratio accordingly.
  • This method realizes the spectral cluster classification of massive data, and then performs abnormal point detection and automatic acquisition of the optimal abnormal point ratio for each cluster at the same time. After the optimal abnormal point ratio is determined, the data of each cluster is performed Outlier detection, detection accuracy has been improved.
  • An embodiment of the present application also provides an abnormal point ratio optimization device based on spectral clustering.
  • the abnormal point ratio optimization device based on spectral clustering is used to execute any embodiment of the aforementioned method for optimizing abnormal point ratio based on spectral clustering.
  • FIG. 6, is a schematic block diagram of an abnormal point ratio optimization device based on spectral clustering provided by an embodiment of the present application.
  • the device 100 for optimizing the proportion of abnormal points based on spectral clustering may be configured in a server.
  • the device 100 for optimizing the proportion of abnormal points based on spectral clustering includes a spectral clustering unit 101, an isolated forest model training unit 110, a normal point center acquisition unit 120, a first average distance calculation unit 130, and a first abnormal point.
  • the spectral clustering unit 101 is configured to receive a set of data points to be classified, divide the nodes corresponding to the set of data points to be classified into multiple subgraphs through spectral clustering, and obtain clusters corresponding to each subgraph.
  • the spectral clustering unit 101 includes:
  • the initial input unit 1011 is used to obtain the input similarity matrix and the number of target clusters
  • the similarity matrix obtaining unit 1012 is configured to construct a similarity matrix corresponding to the node corresponding to the set of data points to be classified according to the similarity matrix;
  • the Laplacian matrix obtaining unit 1013 is configured to construct an adjacency matrix and a diagonal matrix according to the similarity matrix, and obtain the Laplacian matrix from the difference between the diagonal matrix and the adjacency matrix;
  • the target feature vector set obtaining unit 1014 is configured to obtain the rankings of multiple feature values in the Laplacian matrix. If it is judged that the ranking of the feature value is before the preset ranking threshold, obtain the corresponding feature vector to form the target feature vector set;
  • the target vector matrix obtaining unit 1015 is configured to transpose each feature vector in the target feature vector set into a column vector and combine them in sequence to obtain the target vector matrix;
  • the sub-cluster obtaining unit 1016 is configured to cluster each row vector in the target vector matrix by using the k-means algorithm to obtain the same number of sub-graphs as the target clusters, and obtain cluster clusters corresponding to each sub-graph.
  • the isolated forest model training unit 110 is used to obtain data points corresponding to each cluster included in a plurality of clusters, and construct a data point corresponding to each cluster according to the preset current abnormal point ratio and each cluster One-to-one correspondence is an isolated forest model for outlier detection.
  • the isolated forest model training unit 110 includes:
  • the classification parameter obtaining unit 111 is configured to randomly obtain a data attribute from each cluster cluster, and a split value determined by the selected data attribute in each cluster cluster and the current abnormal point ratio;
  • the model acquisition unit 112 is configured to divide each cluster according to the data attribute and the split value to obtain a plurality of isolated trees corresponding to each cluster, and to combine to obtain a user corresponding to each cluster. Isolated forest model for outlier detection.
  • the normal point center acquiring unit 120 is configured to classify the selected clusters according to the isolated forest model and the current abnormal point ratio to obtain the normal point center of the normal category in the classification result.
  • the normal point center obtaining unit 120 includes:
  • the initial classification unit 121 is configured to classify the selected cluster cluster according to the isolated forest model and the current anomaly point ratio to obtain a classification result corresponding to the selected cluster cluster; wherein, in the classification result Including normal category data points and abnormal category data points;
  • the distance average calculation unit 122 is configured to obtain the average value corresponding to the data points of the normal category in the classification result to obtain the initial normal point center;
  • the normal point center selection unit 123 is configured to obtain the data point closest to the initial normal point center among the normal category data points in the classification result, as the normal point center corresponding to the normal category data points.
  • the first average distance calculation unit 130 is configured to obtain the average Euclidean distance between each data point of the abnormal category in the classification result and the center of the normal point as the current state average Euclidean distance.
  • the first abnormal point ratio update unit 140 is configured to subtract a preset step size from the current abnormal point ratio to update the current abnormal point ratio.
  • the second average distance calculation unit 150 is used to classify the selected clusters according to the isolated forest model and the current anomaly point ratio, to obtain the data points of the current anomaly category, and to obtain each data point of the current anomaly category and The average Euclidean distance of the center of the normal point is taken as the average Euclidean distance of the next state.
  • the average distance variation range acquisition unit 160 is configured to obtain the average Euclidean distance variation range by dividing the difference between the average Euclidean distance in the next state and the average Euclidean distance in the current state by the step length.
  • the amplitude determining unit 170 is configured to determine whether the average Euclidean distance variation amplitude exceeds a preset variation amplitude threshold.
  • the optimal ratio acquisition unit 180 is configured to, if the average Euclidean distance variation range exceeds the variation range threshold, use the current abnormal point ratio plus the step length as the optimal abnormal point ratio.
  • the optimal classification unit 181 is configured to classify the selected clusters according to the isolated forest model and the optimal anomaly point ratio to obtain an optimal classification result.
  • the device 100 for optimizing the proportion of abnormal points based on spectral clustering further includes:
  • the second abnormal point ratio update unit 190 is configured to, if the average Euclidean distance variation range does not exceed the variation range threshold, subtract the step size from the current abnormal point ratio to update the current abnormal point ratio, and average the Euclidean distance through the next state Update the average Euclidean distance of the current state, and return to the execution to classify the selected clusters according to the isolated forest model and the current anomaly point ratio to obtain the data points of the current anomaly category, and obtain the data points of the current anomaly category and The average Euclidean distance of the center of the normal point is used as the step of the average Euclidean distance of the next state.
  • the device realizes the spectral cluster classification of massive data, and then performs abnormal point detection and automatic acquisition of the optimal abnormal point ratio for each cluster at the same time. After the optimal abnormal point ratio is determined, the data of each cluster is performed Outlier detection, detection accuracy has been improved.
  • the above-mentioned abnormal point ratio optimization device based on spectral clustering can be implemented in the form of a computer program, and the computer program can be run on a computer device as shown in FIG. 11.
  • FIG. 11 is a schematic block diagram of a computer device according to an embodiment of the present application.
  • the computer device 500 is a server, and the server may be an independent server or a server cluster composed of multiple servers.
  • the computer device 500 includes a processor 502, a memory, and a network interface 505 connected through a system bus 501, where the memory may include a non-volatile storage medium 503 and an internal memory 504.
  • the non-volatile storage medium 503 can store an operating system 5031 and a computer program 5032.
  • the processor 502 can execute the method for optimizing the proportion of abnormal points based on spectral clustering.
  • the processor 502 is used to provide calculation and control capabilities, and support the operation of the entire computer device 500.
  • the internal memory 504 provides an environment for the operation of the computer program 5032 in the non-volatile storage medium 503.
  • the processor 502 can execute the method for optimizing the proportion of abnormal points based on spectral clustering.
  • the network interface 505 is used for network communication, such as providing data information transmission.
  • the structure shown in FIG. 11 is only a block diagram of part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device 500 to which the solution of the present application is applied.
  • the specific computer device 500 may include more or fewer components than shown in the figure, or combine certain components, or have a different component arrangement.
  • the processor 502 is configured to run a computer program 5032 stored in a memory to implement the method for optimizing the proportion of abnormal points based on spectral clustering disclosed in the embodiment of the present application.
  • the embodiment of the computer device shown in FIG. 11 does not constitute a limitation on the specific configuration of the computer device.
  • the computer device may include more or less components than those shown in the figure. Or combine certain components, or different component arrangements.
  • the computer device may only include a memory and a processor. In such an embodiment, the structures and functions of the memory and the processor are consistent with the embodiment shown in FIG. 11, and will not be repeated here.
  • the processor 502 may be a central processing unit (Central Processing Unit, CPU), and the processor 502 may also be other general-purpose processors, digital signal processors (Digital Signal Processors, DSPs), Application Specific Integrated Circuit (ASIC), Field-Programmable Gate Array (FPGA) or other programmable logic devices, discrete gates or transistor logic devices, discrete hardware components, etc.
  • the general-purpose processor may be a microprocessor or the processor may also be any conventional processor.
  • a computer-readable storage medium may be a non-volatile computer-readable storage medium.
  • the computer-readable storage medium stores a computer program, where the computer program is executed by a processor to implement the method for optimizing the proportion of abnormal points based on spectral clustering disclosed in the embodiments of the present application.
  • the storage medium is a physical, non-transitory storage medium, such as a U disk, a mobile hard disk, a read-only memory (Read-Only Memory, ROM), a magnetic disk, or an optical disk that can store program codes. medium.
  • a physical, non-transitory storage medium such as a U disk, a mobile hard disk, a read-only memory (Read-Only Memory, ROM), a magnetic disk, or an optical disk that can store program codes. medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了基于谱聚类的异常点比例优化方法、装置及计算机设备。该方法包括:通过接收待分类数据点集合,通过谱聚类将待分类数据点集合进行聚类得到多个聚类簇;获取各聚类簇对应的数据点,根据预设的当前异常点比例及各聚类簇,构建与各聚类簇一一对应的孤立森林模型;通过不断调整当前异常点比例,直至平均欧式距离变动幅度超出变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;将所选定的聚类簇根据最优异常点比例进行分类,得到最优分类结果。

Description

基于谱聚类的异常点比例优化方法、装置及计算机设备
本申请要求于2019年1月28日提交中国专利局、申请号为201910079172.5、申请名称为“基于谱聚类的异常点比例优化方法、装置及计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及智能决策技术领域,尤其涉及一种基于谱聚类的异常点比例优化方法、装置及计算机设备。
背景技术
异常值分析是检验数据是否有录入错误以及含有不合常理的数据的过程,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响。目前,当云服务器接收了海量的数据并需对其进行异常点检测是,若仅将海量数据视为只有一个中心的数据集,会导致用于异常点检测的无监督模型的区分效果较差,无法准确的检测出异常点。而且无监督模型在检测前的异常点比例的设置依赖用户经验,导致设置难度较大。
发明内容
本申请实施例提供了一种基于谱聚类的异常点比例优化方法、装置及计算机设备,旨在解决现有技术中海量数据视为只有一个中心的数据集,会导致用于异常点检测的无监督模型的区分效果较差,无法准确的检测出异常点的问题。
第一方面,本申请实施例提供了一种基于谱聚类的异常点比例优化方法,其包括:
接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;
获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;
将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类, 得到分类结果中正常类别的正常点中心;
获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
判断所述平均欧式距离变动幅度超出预设的变动幅度阈值;
若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
第二方面,本申请实施例提供了一种基于谱聚类的异常点比例优化装置,其包括:
谱聚类单元,用于接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;
孤立森林模型训练单元,用于获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;
正常点中心获取单元,用于将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
第一平均距离计算单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
第一异常点比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
第二平均距离计算单元,用于将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
平均距离变动幅度获取单元,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
幅度判断单元,用于判断所述平均欧式距离变动幅度超出预设的变动幅度阈值;
最优比例获取单元,用于若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
最优分类单元,用于将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于谱聚类的异常点比例优化方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于谱聚类的异常点比例优化方法。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于谱聚类的异常点比例优化方法的流程示意图;
图2为本申请实施例提供的基于谱聚类的异常点比例优化方法的子流程示意图;
图3为本申请实施例提供的基于谱聚类的异常点比例优化方法的另一子流程示意图;
图4为本申请实施例提供的基于谱聚类的异常点比例优化方法的另一子流程示意图;
图5为本申请实施例提供的基于谱聚类的异常点比例优化方法的另一流程 示意图;
图6为本申请实施例提供的基于谱聚类的异常点比例优化装置的示意性框图;
图7为本申请实施例提供的基于谱聚类的异常点比例优化装置的子单元示意性框图;
图8为本申请实施例提供的基于谱聚类的异常点比例优化装置的另一子单元示意性框图;
图9为本申请实施例提供的基于谱聚类的异常点比例优化装置的另一子单元示意性框图;
图10为本申请实施例提供的基于谱聚类的异常点比例优化装置的另一示意性框图;
图11为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本申请实施例提供的基于谱聚类的异常点比例优化方法的流程示意图,该基于谱聚类的异常点比例优化方法应用于服务器中,该方法 通过安装于服务器中的应用软件进行执行。
如图1所示,该方法包括步骤S101~S181。
S101、接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇。
在本实施例中,当企业的云服务器接收了各用户端上传的海量用户数据后,这些用户数据可视为待分类数据点集合。例如,待分类数据点集合可以是用户的保单数据,至少包括投保人姓名、投保人年龄、投保人保单数量、投保金额、投保年限、投保人手机号码等字段。此时可有选择性的选择其中一个字段数据作为主数据,而剩余的字段则作为上述主字段的属性数据。例如投保年限字段作为主数据,投保人的电话号码、身份证号等字段作为其属性数据。将待分类数据点集合中每一数据点转化为节点之后,可以通过谱聚类对节点进行划分,得到多个子图,每一个子图可以视为一个聚类簇。
在一实施例中,如图2所示,步骤S101包括:
S1011、获取所输入的相似度矩阵和目标聚类数目;
S1012、根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵;
S1013、根据所述相似矩阵构建邻接矩阵和对角矩阵,由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵;
S1014、获取所述拉普拉斯矩阵中的多个特征值的排名,若判断特征值的排名位于预设排名阈值之前,获取对应的特征向量以组成目标特征向量集;
S1015、将目标特征向量集合中每一特征向量转置为列向量并依次组合,以得到目标向量矩阵;
S1016、通过k-means算法将目标向量矩阵中各行向量进行聚类,得到与所述目标聚类数目相同的子图,并得到与各子图对应的聚类簇。
谱聚类是一种基于图论的聚类方法,通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据聚类的目的。谱聚类可以理解为将高维空间的数据映射到低维,然后在低维空间用其它聚类算法(如k-means)进行聚类。
为了实现对高维空间的理赔数据映射到低维空间,需将所述理赔数据对应的节点先根据式(1)进行相似矩阵的构建:
Figure PCTCN2019117355-appb-000001
其中,n为赔数据对应的节点个数,xi和xj分别表示任意一个节点,σ表示节点的标准差,s ij则组成了相似矩阵。
由所输入的相似度矩阵来构建与所述理赔数据对应的节点相应的相似矩阵有ε-邻近法,K邻近法和全连接法。例如,全连接法的计算公式如式1。
之后根据式2来计算对角矩阵,式2具体如下:
Figure PCTCN2019117355-appb-000002
其中,d i表示相似矩阵中每一行的元素之和,由d i组成对角矩阵w ij则表示相似矩阵中第i行第j列的元素。
当由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵后,即可以拉普拉斯矩阵中对应的每一特征向量转置为列向量,从而组成目标向量矩阵。最后通过k-means算法将目标向量矩阵中各行向量进行聚类,得到与所述目标聚类数目相同的子团。
S110、获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型。
在本实施例中,例如,云服务器接收了业务端所上传的待分类数据点集合并完成谱聚类分组后,此时若所设置初始的当前异常点比例为0.5(如将初始的当前异常点比例记为m 0),表示所期望的孤立森林模型的分类结果中正常点样本和异常点样本比例为1:1。由于假设正常点数量比异常点多,因此此时异常点类别中含有大量的错分正常点。当异常点比例减少的时候,异常点类别中的正常点会被剔除。此时,先根据预设的当前异常点比例及每一聚类簇分别构建用于异常点检测的孤立森林模型,作为后续调整当前异常点比例并重新分类的模型基础。
在一实施例中,如图3所示,步骤S110包括:
S111、从各聚类簇中均随机获取一个数据属性,及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值;
S112、根据所述数据属性及所述分裂值将各聚类聚分别进行划分,得到各聚类聚分别对应的多个孤立树,以组合得到与各聚类簇对应的用于异常点检测 的孤立森林模型。
在本实施例中,例如聚类簇1对应的数据集为D1,其中D1={d 1,d 2,…,d n},从中随机选择一个数据属性A,并由数据属性A和当前异常点比例确定一个分裂值p 1;然后对训练数据集中每个数据对象d i,按照数据属性A的分裂值p 1进行划分。若d i(A)小于p 1,则放在左子树,反之则在右子树。此时再随机选择一个数据属性B,并由数据属性B和当前异常点比例确定一个分裂值p 2;然后对左子树和右子树均根据按照数据属性B的分裂值p2进行划分,得到与左子树对应的次级左子树和次级右子树,以及与右子树对应的次级左子树和次级右子树。以此迭代,直至满足一下条件之一:(1)D1中剩下一条数据或者多条相同的数据;(2)孤立树达到最大高度。由于每一个孤立树在形成的过程中,所随机得到数据属性及与数据属性对应的分裂值不同,这就导致了孤立森林中能包括多个孤立树。孤立树中若设置异常点比例得当,即可提升异常点的检测效果。
通过上述方式,在对多个聚类簇分别构建了孤立森林模型后,每一聚类簇根据其对应的孤立森林模型进行数据分类。
S120、将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心。
在本实施例中,当选定多个聚类簇其中一个聚类簇作为目标聚类簇为示例进行最优异常点比例获取时,需根据初始设置的当前异常点比例将所选定的聚类簇由所述孤立森林模型进行分类后,可以确定分类结果中正常类别的数据点对应的正常点中心,这一正常点中心在后续过程中是恒定不变的。
在一实施例中,如图4所示,步骤S120包括:
S121、将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
S122、获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
S123、获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
在本实施例中,先根据所述孤立森林模型及当前异常点比例将所选定的聚 类簇进行分类后,得到了包括正常类别的数据点和异常类别的数据点的分类结果。此时为了确定正常点中心,需先获取正常类别的数据点的平均值,然后将正常类别的数据点中距离该平均值最近的数据点,以作为正常点中心。当固定所述正常点中心后,即可不断调整异常点比例,根据指定参数(如当前异常类别的每一数据点与所述正常点中心的平均欧式距离)的变化趋势,来获取最优异常点比例。
S130、获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离。
在本申请中,为了判断异常类别的每一数据点与正常点的距离关系,需计算异常类别的每一数据点与所述正常点中心的欧式距离后求平均,得到所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离,从该当前状态平均欧式距离可以看出异常类别的每一数据点是否均远离正常点中心。
S140、通过所述当前异常点比例减去预设的步长,以更新当前异常点比例。
在本实施例,将所述当前异常点比例减去预设的步长,是为了不断调整当前异常点比例,以通过试探法得出最优异常点比例。
S150、将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
在本实施例中,通过将当前异常点比例减去所述步长以更新当前异常点比例,此时无需再次确定正常点中心,只需得到分类结果中的异常类别的数据点,再计算异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
S160、通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度。
在本实施例中,通过例如步骤S130中得到的当前状态平均欧式距离视为d 0,则步骤S150初次执行得到的下一状态平均欧式距离视为d 1,则步骤S150第二次执行得到的下一状态平均欧式距离视为d 2(此时对应的当前状态平均欧式距离为d 1),……,步骤S150第N次执行得到的下一状态平均欧式距离视为d N(此时对应的当前状态平均欧式距离为d N-1)。若将预设的步长记为l,则是通 过(d N-d N-1)/l来计算平均欧式距离变动幅度,其中N为大于0的正整数。
S170、判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值。
在本实施例中,当平均欧式距离变动幅度陡然变大,表示此刻最新的当前异常点比例不是最优异常点比例,可考虑将此刻最新的当前异常点比例之前一个状态的当前异常点比例作为最优异常点比例。
S180、若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
在本实施例中,若平均欧式距离变动幅度超出预设的变动幅度阈值,表示有部分真实的异常点被划分为正常点,导致异常点到正常中心点的平均欧式距离突增,此时当前异常点比例的上一状态(即当前异常点比例加上步长)即可作为最优异常点比例。
S181、将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
在本实施例中,当确定了最优异常点比例后,即可将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果,得到分类效果较好的无监督分类模型。
在一实施例中,如图5所示,步骤S170之后还包括:
S190、若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行步骤S150。
在本实施例中,当平均欧式距离变动幅度仍保持平稳过渡,表示所降低的异常点比例不足以明显影响异常类别的每一数据点与所述正常点中心的平均欧式距离,此时需将当前异常点比例减去步长以更新当前异常点比例,并通过下一状态平均欧式距离以更新新当前状态平均欧式距离。例如当(d N-d N-1)/l未超出预设的变动幅度阈值,此时将d 1作为当前状态平均欧式距离,将(m 0-l)作为当前异常点比例重新返回执行步骤S150以得到d 2;之后再次流向步骤S170时即是以(d 2-d1)/l作为平均欧式距离变动幅度,以此类推,直至执行到平均欧式距离变动幅度超出预设的变动幅度阈值即可。
在一实施例中,步骤S181之后还包括:
将所述最优分类结果及所述最优异常点比例发送至所述待分类数据点集合 对应的用户端,并将所述最优分类结果及所述最优异常点比例同步发送至云服务器;
将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除。
在本实施例中,若在服务器中完成了获取了与所述待分类数据点集合对应的最优分类结果及所述最优异常点比例后,可以及时的将该最优分类结果及所述最优异常点比例发送至所述待分类数据点集合对应的用户端,实现对用户端进行分类结果的有效通知。
而且为了降低服务器中的数据存储压力,此时可及时的将所述最优分类结果及所述最优异常点比例同步发送至云服务器,通过云服务器实现对与所述待分类数据点集合对应的最优分类结果及所述最优异常点比例的有效存储。此过程中,还可以将与所述最优分类结果及所述最优异常点比例对应的述待分类数据点集合同步至云服务器。上述的待分类数据点集合、最优分类结果及最优异常点比例在由服务器同步至云服务器中时,需以用户端的唯一机器识别码(如IMEI串号)为数据标识位来进行唯一数据标识。
此时将所述最优分类结果及所述最优异常点比例同步发送至云服务器之后,则可对服务器中将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除,从而有效释放出存储空间。
在一实施例中,所述将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除之前,还包括:
根据预设的当前异常点比例与所述最优异常点比例之差除以所述步长,得到迭代次数;
将所述迭代次数发送至所述待分类数据点集合对应的用户端,并将所述迭代次数同步发送至云服务器。
在本实施例中,为了清楚的获知预设的当前异常点比例所述最优异常点比例之间经过了多少次迭代,此时可以根据预设的当前异常点比例与所述最优异常点比例之差除以所述步长,得到迭代次数。当获知了所述迭代次数后,可以将所述迭代次数发送至所述待分类数据点集合对应的用户端,用户端对应则可积累设置最优异常点比例的经验。
该方法实现了对海量数据的谱聚类分类,然后分别对各聚类簇同时进行异 常点检测和最优异常点比例自动获取,确定了最优异常点比例后对各聚类簇的数据进行异常点检测,检测准确率得到了提升。
本申请实施例还提供一种基于谱聚类的异常点比例优化装置,该基于谱聚类的异常点比例优化装置用于执行前述基于谱聚类的异常点比例优化方法的任一实施例。具体地,请参阅图6,图6是本申请实施例提供的基于谱聚类的异常点比例优化装置的示意性框图。该基于谱聚类的异常点比例优化装置100可以配置于服务器中。
如图6所示,基于谱聚类的异常点比例优化装置100包括谱聚类单元101、孤立森林模型训练单元110、正常点中心获取单元120、第一平均距离计算单元130、第一异常点比例更新单元140、第二平均距离计算单元150、平均距离变动幅度获取单元160、幅度判断单元170、最优比例获取单元180、最优分类单元181。
谱聚类单元101,用于接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇。
在一实施例中,如图7所示,谱聚类单元101包括:
初始输入单元1011,用于获取所输入的相似度矩阵和目标聚类数目;
相似度矩阵获取单元1012,用于根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵;
拉普拉斯矩阵获取单元1013,用于根据所述相似矩阵构建邻接矩阵和对角矩阵,由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵;
目标特征向量集获取单元1014,用于获取所述拉普拉斯矩阵中的多个特征值的排名,若判断特征值的排名位于预设排名阈值之前,获取对应的特征向量以组成目标特征向量集;
目标向量矩阵获取单元1015,用于将目标特征向量集合中每一特征向量转置为列向量并依次组合,以得到目标向量矩阵;
子团获取单元1016,用于通过k-means算法将目标向量矩阵中各行向量进行聚类,得到与所述目标聚类数目相同的子图,并得到与各子图对应的聚类簇。
孤立森林模型训练单元110,用于获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型。
在一实施例中,如图8所示,孤立森林模型训练单元110包括:
分类参数获取单元111,用于从各聚类簇中均随机获取一个数据属性,及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值;
模型获取单元112,用于根据所述数据属性及所述分裂值将各聚类聚分别进行划分,得到各聚类聚分别对应的多个孤立树,以组合得到与各聚类簇对应的用于异常点检测的孤立森林模型。
正常点中心获取单元120,用于将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心。
在一实施例中,如图9所示,正常点中心获取单元120包括:
初始分类单元121,用于将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
距离均值计算单元122,用于获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
正常点中心选定单元123,用于获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
第一平均距离计算单元130,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离。
第一异常点比例更新单元140,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例。
第二平均距离计算单元150,用于将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离。
平均距离变动幅度获取单元160,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度。
幅度判断单元170,用于判断所述平均欧式距离变动幅度是否超出预设的变动幅度阈值。
最优比例获取单元180,用于若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例。
最优分类单元181,用于将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
在一实施例中,如图10所示,基于谱聚类的异常点比例优化装置100还包括:
第二异常点比例更新单元190,用于若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
该装置实现了对海量数据的谱聚类分类,然后分别对各聚类簇同时进行异常点检测和最优异常点比例自动获取,确定了最优异常点比例后对各聚类簇的数据进行异常点检测,检测准确率得到了提升。
上述基于谱聚类的异常点比例优化装置可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本申请实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图11,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于谱聚类的异常点比例优化方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于谱聚类的异常点比例优化方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的 框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本申请实施例公开的基于谱聚类的异常点比例优化方法。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(Central Processing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本申请的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本申请实施例公开的基于谱聚类的异常点比例优化方法。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

  1. 一种基于谱聚类的异常点比例优化方法,包括:
    接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;
    获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;
    将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
    获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
    通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
    将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
    通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
    判断所述平均欧式距离变动幅度超出预设的变动幅度阈值;
    若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
    将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
  2. 根据权利要求1所述的基于谱聚类的异常点比例优化方法,其中,所述通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇,包括:
    获取所输入的相似度矩阵和目标聚类数目;
    根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵;
    根据所述相似矩阵构建邻接矩阵和对角矩阵,由所述对角矩阵与所述邻接 矩阵之差得到拉普拉斯矩阵;
    获取所述拉普拉斯矩阵中的多个特征值的排名,若判断特征值的排名位于预设排名阈值之前,获取对应的特征向量以组成目标特征向量集;
    将目标特征向量集合中每一特征向量转置为列向量并依次组合,以得到目标向量矩阵;
    通过k-means算法将目标向量矩阵中各行向量进行聚类,得到与所述目标聚类数目相同的子图,并得到与各子图对应的聚类簇。
  3. 根据权利要求1所述的基于谱聚类的异常点比例优化方法,其中,所述判断所述平均欧式距离变动幅度超出预设的变动幅度阈值之后,还包括:
    若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
  4. 根据权利要求1所述的基于谱聚类的异常点比例优化方法,其中,所述根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型,包括:
    从各聚类簇中均随机获取一个数据属性,及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值;
    根据所述数据属性及所述分裂值将各聚类聚分别进行划分,得到各聚类聚分别对应的多个孤立树,以组合得到与各聚类簇对应的用于异常点检测的孤立森林模型。
  5. 根据权利要求1所述的基于谱聚类的异常点比例优化方法,其中,所述将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心,包括:
    将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
    获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
    获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
  6. 根据权利要求1所述的基于谱聚类的异常点比例优化方法,其中,所述将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果之后,还包括:
    将所述最优分类结果及所述最优异常点比例发送至所述待分类数据点集合对应的用户端,并将所述最优分类结果及所述最优异常点比例同步发送至云服务器;
    将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除。
  7. 根据权利要求6所述的基于谱聚类的异常点比例优化方法,其中,所述将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除之前,还包括:
    根据预设的当前异常点比例与所述最优异常点比例之差除以所述步长,得到迭代次数;
    将所述迭代次数发送至所述待分类数据点集合对应的用户端,并将所述迭代次数同步发送至云服务器。
  8. 一种基于谱聚类的异常点比例优化装置,包括:
    谱聚类单元,用于接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;
    孤立森林模型训练单元,用于获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;
    正常点中心获取单元,用于将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
    第一平均距离计算单元,用于获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
    第一异常点比例更新单元,用于通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
    第二平均距离计算单元,用于将所选定的聚类簇根据所述孤立森林模型及 当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
    平均距离变动幅度获取单元,用于通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
    幅度判断单元,用于判断所述平均欧式距离变动幅度超出预设的变动幅度阈值;
    最优比例获取单元,用于若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
    最优分类单元,用于将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
  9. 根据权利要求8所述的基于谱聚类的异常点比例优化装置,其中,所述谱聚类单元,包括:
    初始输入单元,用于获取所输入的相似度矩阵和目标聚类数目;
    相似度矩阵获取单元,用于根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵;
    拉普拉斯矩阵获取单元,用于根据所述相似矩阵构建邻接矩阵和对角矩阵,由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵;
    目标特征向量集获取单元,用于获取所述拉普拉斯矩阵中的多个特征值的排名,若判断特征值的排名位于预设排名阈值之前,获取对应的特征向量以组成目标特征向量集;
    目标向量矩阵获取单元,用于将目标特征向量集合中每一特征向量转置为列向量并依次组合,以得到目标向量矩阵;
    子团获取单元,用于通过k-means算法将目标向量矩阵中各行向量进行聚类,得到与所述目标聚类数目相同的子图,并得到与各子图对应的聚类簇。
  10. 根据权利要求8所述的基于谱聚类的异常点比例优化装置,其中,还包括:
    第二异常点比例更新单元,用于若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据 点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
  11. 一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
    接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;
    获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;
    将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
    获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
    通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
    将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
    通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
    判断所述平均欧式距离变动幅度超出预设的变动幅度阈值;
    若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
    将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
  12. 根据权利要求11所述的计算机设备,其中,所述通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇,包括:
    获取所输入的相似度矩阵和目标聚类数目;
    根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似 矩阵;
    根据所述相似矩阵构建邻接矩阵和对角矩阵,由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵;
    获取所述拉普拉斯矩阵中的多个特征值的排名,若判断特征值的排名位于预设排名阈值之前,获取对应的特征向量以组成目标特征向量集;
    将目标特征向量集合中每一特征向量转置为列向量并依次组合,以得到目标向量矩阵;
    通过k-means算法将目标向量矩阵中各行向量进行聚类,得到与所述目标聚类数目相同的子图,并得到与各子图对应的聚类簇。
  13. 根据权利要求11所述的计算机设备,其中,所述判断所述平均欧式距离变动幅度超出预设的变动幅度阈值之后,还包括:
    若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
  14. 根据权利要求11所述的计算机设备,其中,所述根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型,包括:
    从各聚类簇中均随机获取一个数据属性,及由各聚类簇中所选定的数据属性和当前异常点比例所确定的分裂值;
    根据所述数据属性及所述分裂值将各聚类聚分别进行划分,得到各聚类聚分别对应的多个孤立树,以组合得到与各聚类簇对应的用于异常点检测的孤立森林模型。
  15. 根据权利要求11所述的计算机设备,其中,所述将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心,包括:
    将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到与所选定的聚类簇对应的分类结果;其中,所述分类结果中包括正常类别的数据点和异常类别的数据点;
    获取所述分类结果中正常类别的数据点所对应的平均值,以获取初始正常点中心;
    获取所述分类结果中正常类别的数据点中与所述初始正常点中心距离最近的数据点,以作为正常类别的数据点对应的正常点中心。
  16. 根据权利要求11所述的计算机设备,其中,所述将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果之后,还包括:
    将所述最优分类结果及所述最优异常点比例发送至所述待分类数据点集合对应的用户端,并将所述最优分类结果及所述最优异常点比例同步发送至云服务器;
    将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除。
  17. 根据权利要求16所述的计算机设备,其中,所述将所述最优分类结果及所述最优异常点比例对应的存储区域进行格式化删除之前,还包括:
    根据预设的当前异常点比例与所述最优异常点比例之差除以所述步长,得到迭代次数;
    将所述迭代次数发送至所述待分类数据点集合对应的用户端,并将所述迭代次数同步发送至云服务器。
  18. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行以下操作:
    接收待分类数据点集合,通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇;
    获取多个聚类簇中所包括每一聚类簇对应的数据点,根据预设的当前异常点比例及每一聚类簇,构建与每一聚类簇一一对应的用于异常点检测的孤立森林模型;
    将所选定的聚类簇根据所述孤立森林模型及所述当前异常点比例进行分类,得到分类结果中正常类别的正常点中心;
    获取所述分类结果中异常类别的每一数据点与所述正常点中心的平均欧式距离,以作为当前状态平均欧式距离;
    通过所述当前异常点比例减去预设的步长,以更新当前异常点比例;
    将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离;
    通过下一状态平均欧式距离与当前状态平均欧式距离之差除以所述步长,得到平均欧式距离变动幅度;
    判断所述平均欧式距离变动幅度超出预设的变动幅度阈值;
    若所述平均欧式距离变动幅度超出所述变动幅度阈值,将当前异常点比例加上步长作为最优异常点比例;以及
    将所选定的聚类簇根据所述孤立森林模型及最优异常点比例进行分类,得到最优分类结果。
  19. 根据权利要求18所述的计算机可读存储介质,其中,所述通过谱聚类将所述待分类数据点集合对应的节点划分为多个子图,并得到与各子图对应的聚类簇,包括:
    获取所输入的相似度矩阵和目标聚类数目;
    根据所述相似度矩阵构建与所述待分类数据点集合对应的节点相应的相似矩阵;
    根据所述相似矩阵构建邻接矩阵和对角矩阵,由所述对角矩阵与所述邻接矩阵之差得到拉普拉斯矩阵;
    获取所述拉普拉斯矩阵中的多个特征值的排名,若判断特征值的排名位于预设排名阈值之前,获取对应的特征向量以组成目标特征向量集;
    将目标特征向量集合中每一特征向量转置为列向量并依次组合,以得到目标向量矩阵;
    通过k-means算法将目标向量矩阵中各行向量进行聚类,得到与所述目标聚类数目相同的子图,并得到与各子图对应的聚类簇。
  20. 根据权利要求18所述的计算机可读存储介质,其中,所述判断所述平均欧式距离变动幅度超出预设的变动幅度阈值之后,还包括:
    若所述平均欧式距离变动幅度未超出所述变动幅度阈值,将当前异常点比例减去步长以更新当前异常点比例,通过下一状态平均欧式距离以更新当前状态平均欧式距离,返回执行将所选定的聚类簇根据所述孤立森林模型及当前异常点比例进行分类,得到当前异常类别的数据点,获取当前异常类别的每一数 据点与所述正常点中心的平均欧式距离以作为下一状态平均欧式距离的步骤。
PCT/CN2019/117355 2019-01-28 2019-11-12 基于谱聚类的异常点比例优化方法、装置及计算机设备 WO2020155755A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910079172.5A CN109871886B (zh) 2019-01-28 2019-01-28 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN201910079172.5 2019-01-28

Publications (1)

Publication Number Publication Date
WO2020155755A1 true WO2020155755A1 (zh) 2020-08-06

Family

ID=66918191

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117355 WO2020155755A1 (zh) 2019-01-28 2019-11-12 基于谱聚类的异常点比例优化方法、装置及计算机设备

Country Status (2)

Country Link
CN (1) CN109871886B (zh)
WO (1) WO2020155755A1 (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112134862A (zh) * 2020-09-11 2020-12-25 国网电力科学研究院有限公司 基于机器学习的粗细粒度混合网络异常检测方法及装置
CN112329868A (zh) * 2020-11-10 2021-02-05 西安电子科技大学 基于clara聚类的制造加工设备群能效状态评价方法
CN113645594A (zh) * 2021-08-18 2021-11-12 中国联合网络通信集团有限公司 信道资源管理方法、系统、基站及计算机可读存储介质
CN113705623A (zh) * 2021-08-06 2021-11-26 深圳集智数字科技有限公司 一种轨道交通站点的分类方法及装置
CN114120020A (zh) * 2021-11-30 2022-03-01 哈尔滨工业大学 基于关键通道保护和谱聚类的超光谱图像谱间排序方法
CN114239983A (zh) * 2021-12-22 2022-03-25 广东电网有限责任公司 一种目标区域的人口流量预测方法及相关装置
CN114264957A (zh) * 2021-12-02 2022-04-01 东软集团股份有限公司 一种异常单体检测方法及其相关设备
CN116012539A (zh) * 2023-03-27 2023-04-25 埃尔法(山东)仪器有限公司 一种无人机与激光检测结合对气团三维成像的计算方法
CN116109176A (zh) * 2022-12-21 2023-05-12 成都安讯智服科技有限公司 一种基于协同聚类的报警异常预测方法和系统
CN116304963A (zh) * 2023-05-25 2023-06-23 山东省国土空间生态修复中心(山东省地质灾害防治技术指导中心、山东省土地储备中心) 一种适用于地质灾害预警的数据处理系统
CN116361679A (zh) * 2023-06-02 2023-06-30 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116662629A (zh) * 2023-08-02 2023-08-29 杭州宇谷科技股份有限公司 基于时序聚类的充电曲线检索方法、系统、装置和介质
CN116756497A (zh) * 2023-08-14 2023-09-15 山东中泳电子股份有限公司 一种超薄出发判断器的灵敏性测试方法
CN116910595A (zh) * 2023-09-14 2023-10-20 山东省地质矿产勘查开发局八〇一水文地质工程地质大队(山东省地矿工程勘察院) 一种水工环生态修复数据的高效存储方法
CN117113248A (zh) * 2023-08-10 2023-11-24 深圳市华翌科技有限公司 基于数据驱动的燃气气量数据异常检测方法
CN117194920A (zh) * 2023-09-06 2023-12-08 万仁企业管理技术(深圳)有限公司 一种基于大数据分析的数据系统处理平台及处理方法
CN117336210A (zh) * 2023-12-01 2024-01-02 河北九宸科技有限公司 物联网卡流量异常检测方法、装置、设备及存储介质
CN117540238A (zh) * 2024-01-05 2024-02-09 长春同泰企业管理服务有限责任公司 一种工业数字化信息采集装置用数据安全管理方法
CN117708613A (zh) * 2023-12-25 2024-03-15 北京中微盛鼎科技有限公司 一种面向产业链协同运作的数字资源匹配方法
CN117743876A (zh) * 2023-12-22 2024-03-22 冻冻(北京)网络科技有限公司 基于云计算的智慧仓储数据优化管理方法
CN117763621A (zh) * 2024-02-22 2024-03-26 青岛他坦科技服务有限公司 一种基于联邦学习的能源大数据安全保护方法
CN117851815A (zh) * 2024-03-07 2024-04-09 哈能(浙江)电力科技有限公司 一种开关柜安全状态实时预警方法及系统
CN117851464A (zh) * 2024-03-07 2024-04-09 济南道图信息科技有限公司 一种用于心理评估的用户行为模式辅助分析方法
CN117874690A (zh) * 2024-03-13 2024-04-12 山东省地质测绘院 一种地理信息测绘数据智能管理方法
CN117876412A (zh) * 2024-03-12 2024-04-12 江西求是高等研究院 三维重建的背景分离方法、系统、可读存储介质及计算机
CN117874652A (zh) * 2024-03-11 2024-04-12 广州市原子高科同位素医药有限公司 一种扫描仪故障检测方法及系统
CN117909770A (zh) * 2024-03-20 2024-04-19 山东德源电力科技股份有限公司 一种用于单相费控电能表的结算数据智能存储方法
CN117992808A (zh) * 2024-04-03 2024-05-07 深圳大学 一种基于大数据的计算机网络管理方法及系统
CN118013312A (zh) * 2024-04-08 2024-05-10 国家海洋局南海规划与环境研究院 一种海陆统筹一体化三维空间仿真规划方法及系统
CN118059428A (zh) * 2024-04-17 2024-05-24 大连欣洋电子设备有限公司 一种车载超细干粉灭火器压力智能监测方法
CN118316717A (zh) * 2024-05-09 2024-07-09 中国人民解放军国防科技大学 一种安全策略配置的编排方法及系统
CN118312863A (zh) * 2024-06-07 2024-07-09 山东交通学院 基于数据分析的乘务人员值乘状态监测方法
CN118468063A (zh) * 2024-05-20 2024-08-09 深圳市优力创科新能源有限公司 一种ups不间断电源状态监测及预警系统
CN118503885A (zh) * 2024-07-17 2024-08-16 江西求是高等研究院 智能电网中异常数据检测方法、系统、存储介质及计算机
CN118551247A (zh) * 2024-07-25 2024-08-27 深圳市瀚力科技有限公司 一种跨境电商物流数据智能管理方法
CN118551248A (zh) * 2024-07-30 2024-08-27 济南大学 具有垂向异性的空间数据聚类方法、系统、设备及介质
CN118656762A (zh) * 2024-08-19 2024-09-17 广东鑫光智能系统有限公司 一种智能板材加工车间故障监控方法以及系统

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871886B (zh) * 2019-01-28 2023-08-01 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
US11972334B2 (en) * 2019-08-13 2024-04-30 Sony Corporation Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
CN110751196B (zh) * 2019-10-12 2020-09-18 东北石油大学 一种油水两相流透明管壁内类油滴附着物识别方法
CN111126211B (zh) * 2019-12-13 2023-08-29 北京四维图新科技股份有限公司 标牌识别方法和装置、电子设备
CN112036424B (zh) * 2020-04-30 2024-04-09 自然资源部第一海洋研究所 基于无监督机器学习的海底滑坡危险性分析方法
CN113810333B (zh) * 2020-06-11 2023-06-27 中国科学院计算机网络信息中心 基于半监督谱聚类和集成svm的流量检测方法及系统
CN112148048A (zh) * 2020-09-29 2020-12-29 南京邦州电力自动化有限公司 一种动力环境监测系统
CN112925990B (zh) * 2021-02-26 2022-09-06 上海哔哩哔哩科技有限公司 目标群体分类方法及装置
CN112905583A (zh) * 2021-04-01 2021-06-04 辽宁工程技术大学 一种高维大数据离群点检测方法
CN113340822B (zh) * 2021-06-23 2022-03-22 浙江启真信息科技有限公司 一种自动标定的光谱采集方法、装置和介质
CN114742178B (zh) * 2022-06-10 2022-11-08 航天亮丽电气有限责任公司 一种通过mems六轴传感器进行非侵入式压板状态监测的方法
CN115755954B (zh) * 2022-10-28 2023-07-25 佳源科技股份有限公司 巡检路径规划方法、系统、计算机设备及存储介质
CN116011894B (zh) * 2023-03-28 2023-06-02 河北长发铝业股份有限公司 一种铝合金棒生产数据管理系统
CN116756595B (zh) * 2023-08-23 2023-12-01 深圳市森瑞普电子有限公司 一种导电滑环故障数据采集监测方法
CN117095771B (zh) * 2023-10-18 2024-02-06 昆山尚瑞智能科技有限公司 一种高精度光谱测量数据优化处理方法
CN117289778B (zh) * 2023-11-27 2024-03-26 惠州市鑫晖源科技有限公司 一种工控主机电源健康状态的实时监测方法
CN117576823B (zh) * 2023-11-29 2024-05-14 上海徽视科技集团有限公司 一种排队叫号系统终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108322363A (zh) * 2018-02-12 2018-07-24 腾讯科技(深圳)有限公司 推送数据异常监控方法、装置、计算机设备和存储介质
CN108475250A (zh) * 2015-10-09 2018-08-31 华为技术有限公司 用于异常根本原因分析的系统和方法
WO2019003703A1 (ja) * 2017-06-28 2019-01-03 株式会社日立製作所 診断装置及び診断方法
CN109145934A (zh) * 2017-12-22 2019-01-04 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
CN109871886A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150363361A1 (en) * 2014-06-16 2015-12-17 Mitsubishi Electric Research Laboratories, Inc. Method for Kernel Correlation-Based Spectral Data Processing
US10956779B2 (en) * 2015-03-26 2021-03-23 Oracle International Corporation Multi-distance clustering
CN107239788A (zh) * 2017-04-20 2017-10-10 浙江工业大学 基于密度自适应的特征向量组最优选取谱聚类方法
CN108777873B (zh) * 2018-06-04 2021-03-02 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475250A (zh) * 2015-10-09 2018-08-31 华为技术有限公司 用于异常根本原因分析的系统和方法
WO2019003703A1 (ja) * 2017-06-28 2019-01-03 株式会社日立製作所 診断装置及び診断方法
CN109145934A (zh) * 2017-12-22 2019-01-04 北京数安鑫云信息技术有限公司 基于日志的用户行为数据处理方法、介质、设备及装置
CN108322363A (zh) * 2018-02-12 2018-07-24 腾讯科技(深圳)有限公司 推送数据异常监控方法、装置、计算机设备和存储介质
CN109871886A (zh) * 2019-01-28 2019-06-11 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112134862A (zh) * 2020-09-11 2020-12-25 国网电力科学研究院有限公司 基于机器学习的粗细粒度混合网络异常检测方法及装置
CN112134862B (zh) * 2020-09-11 2023-09-08 国网电力科学研究院有限公司 基于机器学习的粗细粒度混合网络异常检测方法及装置
CN112329868A (zh) * 2020-11-10 2021-02-05 西安电子科技大学 基于clara聚类的制造加工设备群能效状态评价方法
CN112329868B (zh) * 2020-11-10 2023-08-01 西安电子科技大学 基于clara聚类的制造加工设备群能效状态评价方法
CN113705623A (zh) * 2021-08-06 2021-11-26 深圳集智数字科技有限公司 一种轨道交通站点的分类方法及装置
CN113645594B (zh) * 2021-08-18 2023-06-02 中国联合网络通信集团有限公司 信道资源管理方法、系统、基站及计算机可读存储介质
CN113645594A (zh) * 2021-08-18 2021-11-12 中国联合网络通信集团有限公司 信道资源管理方法、系统、基站及计算机可读存储介质
CN114120020A (zh) * 2021-11-30 2022-03-01 哈尔滨工业大学 基于关键通道保护和谱聚类的超光谱图像谱间排序方法
CN114120020B (zh) * 2021-11-30 2024-04-26 哈尔滨工业大学 基于关键通道保护和谱聚类的超光谱图像谱间排序方法
CN114264957B (zh) * 2021-12-02 2024-05-07 东软集团股份有限公司 一种异常单体检测方法及其相关设备
CN114264957A (zh) * 2021-12-02 2022-04-01 东软集团股份有限公司 一种异常单体检测方法及其相关设备
CN114239983A (zh) * 2021-12-22 2022-03-25 广东电网有限责任公司 一种目标区域的人口流量预测方法及相关装置
CN116109176B (zh) * 2022-12-21 2024-01-05 成都安讯智服科技有限公司 一种基于协同聚类的报警异常预测方法和系统
CN116109176A (zh) * 2022-12-21 2023-05-12 成都安讯智服科技有限公司 一种基于协同聚类的报警异常预测方法和系统
CN116012539A (zh) * 2023-03-27 2023-04-25 埃尔法(山东)仪器有限公司 一种无人机与激光检测结合对气团三维成像的计算方法
CN116304963B (zh) * 2023-05-25 2023-07-28 山东省国土空间生态修复中心(山东省地质灾害防治技术指导中心、山东省土地储备中心) 一种适用于地质灾害预警的数据处理系统
CN116304963A (zh) * 2023-05-25 2023-06-23 山东省国土空间生态修复中心(山东省地质灾害防治技术指导中心、山东省土地储备中心) 一种适用于地质灾害预警的数据处理系统
CN116361679B (zh) * 2023-06-02 2023-08-11 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116361679A (zh) * 2023-06-02 2023-06-30 青岛豪迈电缆集团有限公司 基于数据驱动的电缆寿命智能预测方法及系统
CN116662629A (zh) * 2023-08-02 2023-08-29 杭州宇谷科技股份有限公司 基于时序聚类的充电曲线检索方法、系统、装置和介质
CN116662629B (zh) * 2023-08-02 2024-05-28 杭州宇谷科技股份有限公司 基于时序聚类的充电曲线检索方法、系统、装置和介质
CN117113248B (zh) * 2023-08-10 2024-06-11 深圳市华翌科技有限公司 基于数据驱动的燃气气量数据异常检测方法
CN117113248A (zh) * 2023-08-10 2023-11-24 深圳市华翌科技有限公司 基于数据驱动的燃气气量数据异常检测方法
CN116756497A (zh) * 2023-08-14 2023-09-15 山东中泳电子股份有限公司 一种超薄出发判断器的灵敏性测试方法
CN116756497B (zh) * 2023-08-14 2023-11-07 山东中泳电子股份有限公司 一种超薄出发判断器的灵敏性测试方法
CN117194920B (zh) * 2023-09-06 2024-05-28 北京酷炫网络技术股份有限公司 一种基于大数据分析的数据系统处理平台及处理方法
CN117194920A (zh) * 2023-09-06 2023-12-08 万仁企业管理技术(深圳)有限公司 一种基于大数据分析的数据系统处理平台及处理方法
CN116910595A (zh) * 2023-09-14 2023-10-20 山东省地质矿产勘查开发局八〇一水文地质工程地质大队(山东省地矿工程勘察院) 一种水工环生态修复数据的高效存储方法
CN116910595B (zh) * 2023-09-14 2023-12-08 山东省地质矿产勘查开发局八〇一水文地质工程地质大队(山东省地矿工程勘察院) 一种水工环生态修复数据的高效存储方法
CN117336210A (zh) * 2023-12-01 2024-01-02 河北九宸科技有限公司 物联网卡流量异常检测方法、装置、设备及存储介质
CN117336210B (zh) * 2023-12-01 2024-04-16 河北九宸科技有限公司 物联网卡流量异常检测方法、装置、设备及存储介质
CN117743876A (zh) * 2023-12-22 2024-03-22 冻冻(北京)网络科技有限公司 基于云计算的智慧仓储数据优化管理方法
CN117708613A (zh) * 2023-12-25 2024-03-15 北京中微盛鼎科技有限公司 一种面向产业链协同运作的数字资源匹配方法
CN117708613B (zh) * 2023-12-25 2024-05-14 北京中微盛鼎科技有限公司 一种面向产业链协同运作的数字资源匹配方法
CN117540238B (zh) * 2024-01-05 2024-03-22 长春同泰企业管理服务有限责任公司 一种工业数字化信息采集装置用数据安全管理方法
CN117540238A (zh) * 2024-01-05 2024-02-09 长春同泰企业管理服务有限责任公司 一种工业数字化信息采集装置用数据安全管理方法
CN117763621A (zh) * 2024-02-22 2024-03-26 青岛他坦科技服务有限公司 一种基于联邦学习的能源大数据安全保护方法
CN117763621B (zh) * 2024-02-22 2024-06-04 国网河南省电力公司经济技术研究院 一种基于联邦学习的能源大数据安全保护方法
CN117851815A (zh) * 2024-03-07 2024-04-09 哈能(浙江)电力科技有限公司 一种开关柜安全状态实时预警方法及系统
CN117851815B (zh) * 2024-03-07 2024-05-10 哈能(浙江)电力科技有限公司 一种开关柜安全状态实时预警方法及系统
CN117851464A (zh) * 2024-03-07 2024-04-09 济南道图信息科技有限公司 一种用于心理评估的用户行为模式辅助分析方法
CN117851464B (zh) * 2024-03-07 2024-05-14 济南道图信息科技有限公司 一种用于心理评估的用户行为模式辅助分析方法
CN117874652B (zh) * 2024-03-11 2024-06-11 广州市原子高科同位素医药有限公司 一种扫描仪故障检测方法及系统
CN117874652A (zh) * 2024-03-11 2024-04-12 广州市原子高科同位素医药有限公司 一种扫描仪故障检测方法及系统
CN117876412A (zh) * 2024-03-12 2024-04-12 江西求是高等研究院 三维重建的背景分离方法、系统、可读存储介质及计算机
CN117876412B (zh) * 2024-03-12 2024-05-24 江西求是高等研究院 三维重建的背景分离方法、系统、可读存储介质及计算机
CN117874690A (zh) * 2024-03-13 2024-04-12 山东省地质测绘院 一种地理信息测绘数据智能管理方法
CN117874690B (zh) * 2024-03-13 2024-05-28 山东省地质测绘院 一种地理信息测绘数据智能管理方法
CN117909770B (zh) * 2024-03-20 2024-05-24 山东德源电力科技股份有限公司 一种用于单相费控电能表的结算数据智能存储方法
CN117909770A (zh) * 2024-03-20 2024-04-19 山东德源电力科技股份有限公司 一种用于单相费控电能表的结算数据智能存储方法
CN117992808B (zh) * 2024-04-03 2024-05-31 深圳大学 一种基于大数据的计算机网络管理方法及系统
CN117992808A (zh) * 2024-04-03 2024-05-07 深圳大学 一种基于大数据的计算机网络管理方法及系统
CN118013312A (zh) * 2024-04-08 2024-05-10 国家海洋局南海规划与环境研究院 一种海陆统筹一体化三维空间仿真规划方法及系统
CN118059428A (zh) * 2024-04-17 2024-05-24 大连欣洋电子设备有限公司 一种车载超细干粉灭火器压力智能监测方法
CN118316717A (zh) * 2024-05-09 2024-07-09 中国人民解放军国防科技大学 一种安全策略配置的编排方法及系统
CN118468063A (zh) * 2024-05-20 2024-08-09 深圳市优力创科新能源有限公司 一种ups不间断电源状态监测及预警系统
CN118312863A (zh) * 2024-06-07 2024-07-09 山东交通学院 基于数据分析的乘务人员值乘状态监测方法
CN118503885A (zh) * 2024-07-17 2024-08-16 江西求是高等研究院 智能电网中异常数据检测方法、系统、存储介质及计算机
CN118551247A (zh) * 2024-07-25 2024-08-27 深圳市瀚力科技有限公司 一种跨境电商物流数据智能管理方法
CN118551248A (zh) * 2024-07-30 2024-08-27 济南大学 具有垂向异性的空间数据聚类方法、系统、设备及介质
CN118656762A (zh) * 2024-08-19 2024-09-17 广东鑫光智能系统有限公司 一种智能板材加工车间故障监控方法以及系统

Also Published As

Publication number Publication date
CN109871886B (zh) 2023-08-01
CN109871886A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
WO2020155755A1 (zh) 基于谱聚类的异常点比例优化方法、装置及计算机设备
WO2020155756A1 (zh) 基于聚类和sse的异常点比例优化方法及装置
WO2020155752A1 (zh) 异常点检测模型验证方法、装置、计算机设备及存储介质
US10073906B2 (en) Scalable tri-point arbitration and clustering
US10956779B2 (en) Multi-distance clustering
WO2020155754A1 (zh) 异常点比例优化方法、装置、计算机设备及存储介质
WO2018103453A1 (zh) 检测网络的方法和装置
WO2018001384A1 (zh) 数据处理、数据识别方法和装置、计算机设备
CN110471916A (zh) 数据库的查询方法、装置、服务器及介质
WO2021089013A1 (zh) 空间图卷积网络的训练方法、电子设备及存储介质
CN107832456B (zh) 一种基于临界值数据划分的并行knn文本分类方法
WO2022042152A1 (zh) 多维网络指标的关联规则分析方法、设备和存储介质
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
KR20210124811A (ko) 네트워크 장애 진단을 위한 학습 데이터를 생성하는 학습 데이터 생성 장치 및 방법
CN117235559B (zh) 一种基于边缘计算的物联网数据采集方法及系统
WO2015180340A1 (zh) 一种数据挖掘方法及装置
WO2017088587A1 (zh) 一种数据处理方法及装置
CN112348084A (zh) 改进k-means的未知协议数据帧分类方法
CN113590603A (zh) 基于数据源智能选择的数据处理方法、装置、设备及介质
CN106610977B (zh) 一种数据聚类方法和装置
CN115952067A (zh) 一种数据库操作异常行为检测方法及可读存储介质
WO2018040561A1 (zh) 数据处理方法、装置及系统
Lipor et al. Margin-based active subspace clustering
WO2020155753A1 (zh) 基于sse的异常点比例优化方法、装置及计算机设备
CN114612967A (zh) 一种人脸聚类的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19912425

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19912425

Country of ref document: EP

Kind code of ref document: A1