LU504988B1 - A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering - Google Patents
A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering Download PDFInfo
- Publication number
- LU504988B1 LU504988B1 LU504988A LU504988A LU504988B1 LU 504988 B1 LU504988 B1 LU 504988B1 LU 504988 A LU504988 A LU 504988A LU 504988 A LU504988 A LU 504988A LU 504988 B1 LU504988 B1 LU 504988B1
- Authority
- LU
- Luxembourg
- Prior art keywords
- fuzzy
- samples
- data
- means clustering
- classification
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 7
- 238000013145 classification model Methods 0.000 claims description 10
- 238000002474 experimental method Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000007635 classification algorithm Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000005433 ionosphere Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101150030072 CNTF gene Proteins 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
- G06N7/023—Learning or tuning the parameters of a fuzzy system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Artificial Intelligence (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Die vorliegende Erfindung bezieht sich auf das Gebiet der integrierten Lerntechnologie, insbesondere auf ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, das die folgenden Schritte umfasst: Unterabtastung auf der Grundlage von Fuzzy C-Mittelwert-Clustering; integriertes Lerntraining; integriertes Lerntesten; und experimentelle Analyse; Der vorteilhafte Effekt ist: das integrierte Unterproben-Klassifizierungsverfahren für unausgewogene Daten auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, das durch die vorliegende Erfindung vorgeschlagen wird, durch Fuzzy-C-Mittelwert-Clustering (FuzzyC-Means clustering, FCM) ist ein Clustering- Verfahren, das eine Fuzzy-Matrix auf der Grundlage der Attributeigenschaften des Forschungsobjekts selbst konstruiert und die Klassifizierungsbeziehung auf der Grundlage des berechneten Zugehörigkeitsgrads bestimmt. Der Fuzzy-C-Mittelwert-Clustering-Algorithmus hat die Vorteile einer einfachen Klassifizierung und einer hohen Klassifizierungsgenauigkeit. Aus der Perspektive der Datenvorverarbeitung wird der Fuzzy-C-Mittelwert-Clustering-Algorithmus verwendet, um die unausgewogenen Daten zu unterproben, um die ausgewogenen Daten zu erhalten, und der integrierte Lernalgorithmus wird verwendet, um die Klassifizierungsgenauigkeit einiger Klassen zu verbessern.The present invention relates to the field of integrated learning technology, particularly to a method for classifying integrated imbalance data with subsampling based on fuzzy C-mean clustering, comprising the following steps: subsampling based on fuzzy C-mean -clustering; integrated learning training; integrated learning testing; and experimental analysis; The advantageous effect is: the integrated sub-sample classification method for imbalanced data based on fuzzy C-means clustering proposed by the present invention is by fuzzy C-means clustering (FCM). a clustering method that constructs a fuzzy matrix based on the attribute characteristics of the research object itself and determines the classification relationship based on the calculated membership degree. The fuzzy C-means clustering algorithm has the advantages of easy classification and high classification accuracy. From the perspective of data preprocessing, the fuzzy C-means clustering algorithm is used to subsample the unbalanced data to obtain the balanced data, and the built-in learning algorithm is used to improve the classification accuracy of some classes.
Description
Ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit LU504988A method for classifying integrated disequilibrium data using LU504988
Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-ClusteringSubsampling based on fuzzy c-means clustering
Technischer BereichTechnical part
Die vorliegende Erfindung bezieht sich auf das Gebiet der integrierten Lerntechnologie, insbesondere auf ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mitThe present invention relates to the field of integrated learning technology, particularly to a method for classifying integrated imbalance data
Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering.Subsampling based on fuzzy c-means clustering.
Technologie im HintergrundTechnology in the background
Die Klassifizierung ist eine der wichtigsten Forschungsrichtungen auf dem Gebiet des maschinellen Lernens. Herkdmmliche Klassifizierungsalgorithmen können das Problem der ausgewogenen Datenklassifizierung gut lösen und die Gesamtgenauigkeit der Klassifizierung alsClassification is one of the main research directions in the field of machine learning. Traditional classification algorithms can solve the problem of balanced data classification well, and the overall accuracy of classification as
Bewertungskriterium verwenden.Use evaluation criteria.
In der bestehenden Technologie ist die Anzahl der Stichproben zwischen verschiedenenIn the existing technology, the number of samples varies between different
Klassen in der Praxis oft unausgewogen, z. B. bei der medizinischen Diagnose, der Vorhersage von Softwarefehlern, der Uberwachung von Kreditkartenbetrugstransaktionen, derClasses in practice are often unbalanced, e.g. E.g. in medical diagnosis, predicting software errors, monitoring credit card fraud transactions, etc
Stimmungsanalyse, der Vorhersage der Kundenabwanderung usw., und in diesen Bereichen neigt man dazu, den Klassifizierungsergebnissen der Stichproben einiger weniger Klassen mehrSentiment analysis, customer churn prediction, etc., and in these areas one tends to give more preference to the classification results of sampling a few classes
Aufmerksamkeit zu schenken.to pay attention.
Da es jedoch wahrscheinlicher ist, dass die Stichproben einer Minderheitenklasse vomHowever, since it is more likely that the samples of a minority class from
Klassifikator falsch klassifiziert werden, hat eine Fehlklassifizierung erhebliche Auswirkungen auf die Genauigkeit des Klassifikators. Nehmen wir das binäre Klassifizierungsproblem als Beispiel:If a classifier is misclassified, misclassification has a significant impact on the accuracy of the classifier. Let's take the binary classification problem as an example:
Angenommen, das Verhältnis der Anzahl der Stichproben zwischen den Klassen im Datensatz beträgt 1:99, dann neigt der Klassifikator, wenn die Gesamtklassifizierungsgenauigkeit alsAssuming that the ratio of the number of samples between classes in the data set is 1:99, then the classifier tends if the overall classification accuracy is as
Kriterium herangezogen wird, eher zur Mehrheitsklasse mit einer größeren Anzahl voncriterion is used, tends to belong to the majority class with a larger number of
Stichproben, und obwohl die berechnete Genauigkeit 99 % erreicht, ist ein solchesSamples, and although the calculated accuracy reaches 99%, is such
Klassifizierungsergebnis offensichtlich bedeutungslos. Daher ist es besonders wichtig, einen optimierten Klassifizierungsalgorithmus für die Klassifizierung unausgewogener Daten zu entwickeln.Classification result obviously meaningless. Therefore, it is particularly important to develop an optimized classification algorithm for classifying imbalanced data.
Inhalt der ErfindungContent of the invention
Ziel der vorliegenden Erfindung ist es, ein Verfahren zur Klassifizierung von unterabgetasteten integrierten Ungleichgewichtsdaten auf der Grundlage von Fuzzy-C-Mittelwert-The aim of the present invention is to provide a method for classifying undersampled integrated imbalance data based on fuzzy C-means.
Clustering bereitzustellen, um die im obigen Stand der Technik angesprochenen Probleme zu lösen.To provide clustering to solve the problems raised in the prior art above.
Um das oben genannte Ziel zu erreichen, stellt die vorliegende Erfindung die folgende technische Lösung bereit: ein Verfahren zur Klassifizierung von unterabgetasteten integriertenIn order to achieve the above objective, the present invention provides the following technical solution: a method for classifying undersampled integrated
Ungleichgewichtsdaten auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, wobei dasDisequilibrium data based on fuzzy C-means clustering, where the
Verfahren die folgenden Schritte umfasst:Procedure includes the following steps:
Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering;subsampling based on fuzzy C-means clustering;
Training des Integrationslernens;Integration learning training;
Testen des Integrationslernens;testing integration learning;
Experimentelle Analyse.Experimental analysis.
Vorzugsweise umfasst das auf Fuzzy-C-Mittelwert-Clustering basierende Under-Sampling die folgenden spezifischen Operationen:Preferably, fuzzy C-means clustering based under-sampling includes the following specific operations:
Unterabtastung der Proben der Mehrheitsklasse für das Clustering unter Verwendung desSubsampling the majority class samples for clustering using the
FCM-Algorithmus,Festlegen des Wertes von k auf die Anzahl der Proben der Minderheitsklasse, k=nı, k Proben, die aus Clustering-Zentren anstelle der ursprünglichen Datenproben derFCM algorithm,Setting the value of k to the number of samples of the minority class, k=nı, k samples obtained from clustering centers instead of the original data samples of the
Mehrheitsklasse bestehen,und Erhalten eines ausgeglichenen Datensatzes, der aus einer ähnliché:/504988Majority class consist,and obtain a balanced data set consisting of a similaré:/504988
Anzahl von Datenproben der beiden Klassen besteht.Number of data samples of the two classes exists.
Vorzugsweise umfasst das auf Fuzzy-C-Mittelwert-Clustering basierende Undersampling außerdem die folgenden spezifischen Operationen:Preferably, fuzzy C-means clustering based undersampling also includes the following specific operations:
Trainieren eines Klassifizierers auf dem erhaltenen ausgeglichenen Datensatz undTraining a classifier on the obtained balanced dataset and
Durchführen mehrerer Klassifizierungsexperimente; Aufteilen des Satzes von Datenproben in einen Satz von Minderheitsklassenproben und einen Satz von Mehrheitsklassenproben; Clustern der Mehrheitsklassenproben und Bilden eines ausgeglichenen Datensatzes mit den Zentren der erhaltenen Cluster und allen Minderheitsklassenproben; Nach der Unterabtastung wird sichergestellt, dass die Anzahl der Proben der Mehrheitsklasse mit der Anzahl der Proben derConducting multiple classification experiments; dividing the set of data samples into a set of minority class samples and a set of majority class samples; clustering the majority class samples and forming a balanced data set with the centers of the obtained clusters and all minority class samples; After subsampling, it is ensured that the number of samples of the majority class is the same as the number of samples of the
Minderheitsklasse ausgeglichen ist, und die Anzahl der Cluster der Proben der Mehrheitsklasse wird auf die Anzahl der Proben der Minderheitsklasse eingestellt.Minority class is balanced, and the number of clusters of majority class samples is set to the number of minority class samples.
Vorzugsweise umfasst der integrierte Lerntrainingsvorgang Folgendes:Preferably, the integrated learning training process includes the following:
Besteht keine starke Abhängigkeit zwischen den Basisklassifikatoren, wird dasIf there is no strong dependency between the base classifiers, this will
Klassifizierungsmodell parallel generiert, besteht eine starke Abhängigkeit zwischen denClassification model generated in parallel, there is a strong dependency between the
Basisklassifikatoren, muss das Klassifizierungsmodell seriell generiert werden. Die paralleleBase classifiers, the classification model must be generated serially. The parallel
Generierung des Klassifizierungsmodells wird typischerweise durch den Bagging-Algorithmus und die serielle Generierung des Klassifizierungsmodells durch den Boosting-Algorithmus repräsentiert.Generation of the classification model is typically represented by the bagging algorithm and the serial generation of the classification model by the boosting algorithm.
Vorzugsweise umfasst die spezifische Operation des integrierten Lerntests:Preferably, the specific operation of the integrated learning test includes:
Auswahl von Decision-Stump mit KNN als Basisklassifikator im integriertenSelecting Decision-Stump with KNN as the base classifier in the integrated
Lernalgorithmus.Learning algorithm
Vorzugsweise umfassen die spezifischen Operationen der experimentellen Analyse:Preferably, the specific operations of the experimental analysis include:
Auswahl mehrerer unbalancierter Datensätze für die Matlab-Simulation;Selecting multiple unbalanced data sets for Matlab simulation;
Schlussfolgerung, dass die Stichproben der Minderheitenklasse im unausgewogenenConclusion that the minority class samples are imbalanced
Datensatz P und die Stichproben der Mehrheitsklasse N sind;Dataset P and the majority class samples are N;
Anhand der Konfusionsmatrix werden eine Reihe von Bewertungsindizes für dieUsing the confusion matrix, a series of evaluation indices are created for the
Gesamtgenauigkeit, die Korrektheitsrate, die Rate für die Überprüfung aller Klassen, dieOverall accuracy, the correctness rate, the rate for checking all classes, the
Genauigkeit der Minderheitenklassen, die Rate für die Überprüfung der Richtigkeit, das F-Maß und der AUC definiert, wobei die Gesamtgenauigkeit des Klassifizierers gemäß Gleichung (1) berechnet wird: . TP+INMinority class accuracy, correctness verification rate, F-measure and AUC are defined, with the overall accuracy of the classifier calculated according to Equation (1): . TP+IN
TP+IN FPL FS (1)TP+IN FPL FS (1)
Die Uberpriifungsrate des Klassifikators, auch bekannt als Unterklassengenauigkeit oder positive Genauigkeit, wird wie in Gleichung (2) dargestellt berechnet:The verification rate of the classifier, also known as subclass accuracy or positive accuracy, is calculated as shown in equation (2):
Cn TFCnTF
TER = Reval = Mid = SSDETTER = Reval = Mid = SSDET
TP + FN (2)TP + FN (2)
Die Auffindungsrate des Klassifikators, die auch die Auffindungsrate der kleinen Klasse vonThe discovery rate of the classifier, which is also the discovery rate of the small class of
Stichproben ist, wird wie in Gleichung (3) dargestellt berechnet:Sampling is calculated as shown in equation (3):
SESE
Precision = TEPrecision = TE
TP + FE (3)TP + FE (3)
Das F-Maß ist ein Bewertungskriterium, das auf die Klassifizierung von unausgewogenenThe F-measure is an evaluation criterion aimed at classifying unbalanced
Datensätzen ausgerichtet ist, wie in Gleichung (4) dargestellt: LU504988Data sets aligned as shown in Equation (4): LU504988
N (led Vx Recall « Precision # * m SEE = SS Spa &° x Recall + Precision (4) b ist ein Koeffizient zur Regulierung von Precision und Recall, der normalerweise den Wert 1 annimmt, d.h. Fl, und der F1-Wert wird für die Bewertung der unausgewogenenN (led Vx Recall « Precision # * m SEE = SS Spa &° x Recall + Precision (4) b is a coefficient for regulating precision and recall, which usually takes the value 1, i.e. Fl, and becomes the F1 value for evaluating the unbalanced
Klassifikationsleistung verwendet.Classification performance used.
Die vorteilhaften Auswirkungen der vorliegenden Erfindung im Vergleich zum Stand derThe advantageous effects of the present invention compared to the prior art
Technik sind:Technology are:
Die vorliegende Erfindung schlägt eine integrierte Klassifizierungsmethode für unausgewogene Daten vor, die auf Fuzzy-C-Mittelwert-Clustering basiert, und zwar durch Fuzzy-The present invention proposes an integrated classification method for imbalanced data based on fuzzy C-means clustering through fuzzy
C-Mittelwert-Clustering (FuzzyC-Means clustering, FCM), eine Clustering-Methode, die eineC-means clustering (FuzzyC-Means clustering, FCM), a clustering method that uses a
Fuzzy-Matrix auf der Grundlage der Attributeigenschaften des Forschungsobjekts selbst konstruiert und die Klassifizierungsbeziehung auf der Grundlage des berechnetenFuzzy matrix constructed based on the attribute characteristics of the research object itself and the classification relationship based on the calculated
Zugehörigkeitsgrads bestimmt. Der Fuzzy-C-Mittelwert-Clusteralgorithmus hat die Vorteile einer einfachen Klassifizierung und einer hohen Klassifizierungsgenauigkeit. Aus der Perspektive derDegree of membership determined. The fuzzy C-means clustering algorithm has the advantages of easy classification and high classification accuracy. From the perspective of the
Datenvorverarbeitung wird der Fuzzy-C-Mean-Clustering-Algorithmus verwendet, um die unausgewogenen Daten zu unterproben, um die ausgewogenen Daten zu erhalten, und der integrierte Lernalgorithmus wird verwendet, um die Klassifizierungsgenauigkeit einiger Klassen zu verbessern. Die Grundidee besteht darin, den Fuzzy-C-Mittelwert-Clustering-Algorithmus zu verwenden, um die Stichproben der Mehrheitsklasse im unausgewogenen Datensatz zu unterproben, so dass der ausgewogene Datensatz aus allen Clusterschwerpunkt-Stichproben und allen Stichproben der Minderheitsklasse bestehen kann. Zur Klassifizierung des ausgewogenenData preprocessing, the fuzzy C-mean clustering algorithm is used to subsample the unbalanced data to obtain the balanced data, and the built-in learning algorithm is used to improve the classification accuracy of some classes. The basic idea is to use the fuzzy C-means clustering algorithm to subsample the majority class samples in the unbalanced data set, so that the balanced data set can consist of all cluster centroid samples and all minority class samples. To classify the balanced
Datensatzes wird ein integrierter Lernalgorithmus auf der Grundlage von Bagging verwendet, der schließlich zu einer besseren Klassifizierungsleistung führt.Data set, a built-in learning algorithm based on bagging is used, which ultimately leads to better classification performance.
Beschreibung der beigefügten ZeichnungenDescription of the attached drawings
Bild 1 zeigt ein Diagramm der Verteilung der Datenmerkmale vor dem Clustering der vorliegenden Erfindung;Figure 1 shows a diagram of the distribution of data features before clustering of the present invention;
Bild 2 zeigt ein Diagramm der Verteilung der Datenmerkmale nach dem Clustering der vorliegenden Erfindung;Figure 2 shows a diagram of the distribution of data features after clustering of the present invention;
Bild 3 zeigt ein Flussdiagramm der Implementierung von Bagging im Sinne der vorliegendenFigure 3 shows a flowchart of the implementation of bagging in the sense presented here
Erfindung.Invention.
Detaillierte BeschreibungDetailed description
Um den Zweck der vorliegenden Erfindung, die technischen Lösungen für eine klare und vollständige Beschreibung, und die Vorteile klarer zu verstehen, sind die folgendenIn order to more clearly understand the purpose of the present invention, the technical solutions for a clear and complete description, and the advantages are as follows
Ausführungsformen der vorliegenden Erfindung im Detail in Verbindung mit den beigefügtenEmbodiments of the present invention are described in detail in connection with the accompanying
Zeichnungen beschrieben. Es sollte verstanden werden, dass die spezifischen Ausführungsformen hierin beschrieben sind Teil der Ausführungsformen der vorliegenden Erfindung, nicht alle derDrawings described. It should be understood that the specific embodiments described herein are part of, not all, the embodiments of the present invention
Ausführungsformen, nur für die Erläuterung der Ausführungsformen der vorliegenden Erfindung, und wird nicht verwendet, um die Ausführungsformen der vorliegenden Erfindung zu begrenzen, alle anderen Ausführungsformen, die von der gewöhnlichen Fachmann auf dem Gebiet, ohne dass kreative Arbeit unter der Prämisse des Schutzes der vorliegenden Erfindung gehört zu demEmbodiments, only for the explanation of the embodiments of the present invention, and is not used to limit the embodiments of the present invention, all other embodiments that can be made by the ordinary person skilled in the art, without creative work under the premise of protecting the present Invention is part of that
Umfang der vorliegenden Erfindung.Scope of the present invention.
Unter Bezugnahme auf die Bilder 1 bis 3 bietet die vorliegende Erfindung eine technischeReferring to Figures 1 to 3, the present invention provides a technical
Lösung: ein Verfahren zur Klassifizierung von unzureichend abgetasteten integrierten unausgewogenen Daten auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, wobei ah 4504988Solution: a method for classifying undersampled integrated imbalanced data based on fuzzy C-means clustering, where ah 4504988
Verfahren die folgenden Schritte umfasst: (1) Der Unterprobenprozess auf der Grundlage des Fuzzy-C-Mittelwert-Clustering-ECFCM-Method includes the following steps: (1) The subsampling process based on the fuzzy C-means clustering ECFCM
Algorithmus hat zwei Hauptprozesse: Erstens werden die Proben der Mehrheitsklasse unterAlgorithm has two main processes: First, the samples are taken from the majority class
Verwendung des FCM-Algorithmus geclustert und unterprobt, der k-Wert wird auf die Anzahl derUsing the FCM algorithm clustered and subsampled, the k value is set to the number of
Proben der Minderheitsklasse (d.h. 1kn) gesetzt, und die k Clusterzentren bilden die Proben anstelle der ursprünglichen Datenproben der Mehrheitsklasse. Daher besteht der erhaltene ausgewogene Datensatz aus zwei ähnlichen Zahlen von Datenproben. Zweitens wird derSamples of the minority class (i.e. 1kn) are set, and the k cluster centers form the samples in place of the original data samples of the majority class. Therefore, the obtained balanced data set consists of two similar numbers of data samples. Secondly, the
Klassifikator auf dem erhaltenen ausgewogenen Datensatz trainiert und es werden mehrereClassifier trained on the obtained balanced data set and there are several
Klassifizierungsexperimente durchgeführt. Im Vergleich zum zufälligen Under-Sampling kann das auf dem Fuzzy-C-Mean-Clustering basierende Under-Sampling die Anzahl der Stichproben für die Mehrheitsklasse reduzieren und gleichzeitig den Informationsverlust der Stichproben für dieClassification experiments conducted. Compared with random under-sampling, under-sampling based on fuzzy C-mean clustering can reduce the number of samples for the majority class while reducing the information loss of the samples for the
Mehrheitsklasse so weit wie möglich vermeiden. Der Under-Sampling-Prozess wird wie folgt beschrieben:Avoid majority class as much as possible. The under-sampling process is described as follows:
Eingabe: Unausgewogene Datensäize ofInput: Unbalanced data sets
Ausgabe: ausgeglichene Datensätze f°Output: balanced data sets f°
Initialisierung: =, dy =, k=0Initialization: =, dy =, k=0
For x'ed oy =0 ded UiFor x'ed oy =0 ded Ui
Else dy = dy U ix’)Else dy = dy U ix’)
Endif k = card{d" ds = fom Clustertk, a, } d'=d' UdyEndif k = card{d" ds = fom Clustertk, a, } d'=d' Udy
EndForEndFor
Der obige Pseudocode beschreibt den Prozess des Under-Sampling auf der Grundlage desThe above pseudocode describes the process of under-sampling based on the
Fuzzy-C-Mean-Clustering. Beim Under-Sampling-Verfahren wird zunächst der Datensatz in einenFuzzy C-mean clustering. With the under-sampling process, the data set is first divided into one
Satz von Minderheits- und einen Satz von Mehrheitsstichproben unterteilt; anschlieBend werden die Mehrheitsstichproben geclustert, und die Mittelpunkte der resultierenden Cluster und alleset of minority and a set of majority samples; then the majority samples are clustered, and the centers of the resulting clusters and all
Minderheitsstichproben bilden einen ausgewogenen Datensatz. Um sicherzustellen, dass dieMinority samples form a balanced data set. To ensure that the
Anzahl der Stichproben der Mehrheitsklasse mit der Anzahl der Stichproben der Minderheitsklasse ausgeglichen ist, wird die Anzahl der Cluster der Mehrheitsklasse auf die Anzahl der Stichproben der Minderheitsklasse festgelegt.The number of samples of the majority class is balanced with the number of samples of the minority class, the number of clusters of the majority class is set to the number of samples of the minority class.
Obwohl sich die Anzahl der Stichproben der Mehrheitsklasse nach dem Fuzzy-C-Mittelwert-Although the number of samples of the majority class varies according to the fuzzy C-means
Clustering verringert, ändert sich die räumliche Verteilung der Daten nicht, und die räumlicheClustering reduces, the spatial distribution of the data does not change, and the spatial
Verteilung der Daten vor und nach dem Clustering ist in den Bildern 1 und 2 dargestellt. Beiht/504988Distribution of data before and after clustering is shown in Figures 1 and 2. Beiht/504988
Under-Sampling auf der Grundlage des Fuzzy-C-Mittelwert-Clustering werden die Daten zwischen den Klassen mit Hilfe der Clustering-Methode von unausgewogen auf ausgewogen umgestellt, wobei die Merkmale der räumlichen Verteilung der Daten unverändert bleiben. Der 5 integrierte Klassifizierungsprozess basiert auf dem integrierten Lernalgorithmus, um die Regeln für die ausgeglichenen Daten zu erlernen und ein Klassifizierungsmodell zu erstellen. (2) Integriertes Lernen Trainingsprozess Lernen gibt es vor allem zwei Arten, nämlich, gibt es keine starke Abhängigkeit zwischen Basis-Klassifikatoren, die Klassifizierung Modelle parallel zu generieren, sowie gibt es eine starke Abhängigkeit zwischen Basis-Klassifikatoren, die seriell generiert werden müssen, um das Modell zu klassifizieren, ist die erste typischerweise durch dieUnder-sampling based on fuzzy C-means clustering, the data between classes is switched from unbalanced to balanced using the clustering method, while the characteristics of the spatial distribution of the data remain unchanged. The 5 built-in classification process is based on the built-in learning algorithm to learn the rules for the balanced data and build a classification model. (2) Integrated learning training process learning there are mainly two types, namely, there is no strong dependency between base classifiers that need to generate classification models in parallel, as well as there is a strong dependency between base classifiers that need to be generated serially, to classify the model, the first is typically by the
Bagging-Algorithmus vertreten, und die letztere ist typischerweise durch die Boosting-Bagging algorithm is represented, and the latter is typically represented by the boosting
Algorithmus vertreten. Da der Boosting-Algorithmus bei einigen praktischen Problemen zu einemAlgorithm represented. Since the boosting algorithm leads to some practical problems
Überanpassungsproblem (Over-fitting) führt, kann er schlechtere Klassifizierungsergebnisse liefern als ein einzelner Klassifikator, während der Bagging-Algorithmus solche Probleme besser vermeiden kann, weshalb in diesem Papier der Bagging-Algorithmus als Klassifikator für integriertes Lernen gewählt wird.Over-fitting problem, it can provide worse classification results than a single classifier, while the bagging algorithm can better avoid such problems, so in this paper, the bagging algorithm is chosen as the classifier for integrated learning.
Bagging-Implementierung Schritte sind: angesichts einer Basis-Klassifikator und TBagging implementation steps are: given a base classifier and T
Trainingssätze, jeder Trainingssatz besteht aus dem ersten Datensatz (die Gesamtzahl der Proben für N) in der zufälligen nnN (63,2%) ~x der Probe Zusammensetzung, Basis-KlassifikatorTraining sets, each training set consists of the first data set (the total number of samples for N) in the random nnN (63.2%) ~x of the sample composition, base classifier
Ausbildung T Runden, um T Prädiktionsfunktion Ft, mit T Prädiktionsfunktion jeweils auf denTraining T rounds to T prediction function Ft, with T prediction function each on the
Testsatz Vorhersage, und dann in Übereinstimmung mit der Mehrheit der Abstimmung Methode, um die endgültige Vorhersage Ergebnisse. Die Schritte der Bagging-Implementierung sind in Bild 3 dargestellt. (3) Integration lernender TestprozessTest set prediction, and then in accordance with the majority of voting method to produce the final prediction results. The steps of bagging implementation are shown in Figure 3. (3) Integration of learning testing process
Unter der Annahme, dass die Rechenkomplexität des Basisklassifikators O(m) und dieAssuming that the computational complexity of the base classifier is O(m) and the
Rechenkomplexität des Samplings und der Abstimmung/Mittelung O(s) ist, beträgt dieThe computational complexity of sampling and voting/averaging is O(s).
Rechenkomplexität des Bagging etwa t(O(m)+O(s)), und O(s) ist im Allgemeinen klein, so dass t eine kleine Konstante ist, und somit kann man sehen, dass Bagging ein effizienteres integriertesComputational complexity of Bagging is about t(O(m)+O(s)), and O(s) is generally small, so t is a small constant, and thus one can see that Bagging is a more efficient integrated
Lernverfahren ist. Darüber hinaus basiert Bagging auf der Methode des Self-Samplings, und derlearning process is. In addition, bagging is based on the self-sampling method, and the
Vorteil des Self-Samplings spiegelt sich in Folgendem wider: Da jeder Basisklassifikator nur etwa 63,2 % der Stichproben in der anfänglichen Trainingsmenge verwendet, werden die anderen 36,8 % der Stichproben als Validierungsmenge für die Out-of-Package-Schiatzung derAdvantage of self-sampling is reflected in the following: Since each base classifier uses only about 63.2% of the samples in the initial training set, the other 36.8% of the samples are used as the validation set for the out-of-package estimation of the
Generalisierungsleistung verwendet.Generalization performance used.
Wenn der Basisklassifikator ein Entscheidungsbaum ist, können die Out-of-Package-If the base classifier is a decision tree, the out-of-package
Stichproben verwendet werden, um die Posterior-Wahrscheinlichkeit jedes Knotens imSampling is used to estimate the posterior probability of each node
Entscheidungsbaum zu schätzen und bei der Verarbeitung von Knoten mit nullDecision tree estimation and processing nodes with null
Trainingsstichproben zu helfen. Unter den klassischen Klassifizierungsalgorithmen ist KNN einTraining samples to help. Among the classic classification algorithms, KNN is one
Algorithmus mit geringerer Zeitkomplexität, der häufig beim integrierten Bagging-Lernen verwendet wird. Aufgrund der obigen Überlegungen werden in dieser Arbeit Decision-Stump undLower time complexity algorithm commonly used in integrated bagging learning. Based on the above considerations, Decision-Stump and
KNN als Basisklassifikatoren für den integrierten Lernalgorithmus gewählt.ANN chosen as the base classifiers for the integrated learning algorithm.
Bei der Überprüfung des ECFCM-Algorithmus wird zur Gewährleistung der Objektivität desWhen reviewing the ECFCM algorithm, to ensure the objectivity of the
Experiments die Methode der 10-fachen Kreuzvalidierung verwendet, d.h. die Daten desExperiment used the method of 10-fold cross-validation, i.e. the data of
Datensatzes werden nach dem Zufallsprinzip in 10 gleiche Teile aufgeteilt, von denen 9 alsData set will be randomly divided into 10 equal parts, 9 of which will be
Trainingsmenge und 1 als Testmenge verwendet werden, um die Experimente der Reihe nach durchzuführen, und der Durchschnitt der Ergebnisse der entsprechenden 10 Experimente wird a14/504988Training set and 1 as test set are used to conduct the experiments in order, and the average of the results of the corresponding 10 experiments becomes a14/504988
Endergebnis der 10-fachen Kreuzvalidierung verwendet. (4) Experimentelle Analyse 4.1 Experimenteller DatensatzFinal result of 10-fold cross validation used. (4) Experimental analysis 4.1 Experimental data set
Um die Effektivität des ECFCM-Algorithmus bei der Verarbeitung von Daten mit einer geringeren Ungleichgewichtsrate (Ungleichgewichtsrate unter 5) und einer größerenTo evaluate the effectiveness of the ECFCM algorithm in processing data with a lower imbalance rate (imbalance rate less than 5) and a larger
Ungleichgewichtsrate (Ungleichgewichtsrate über 5) zu testen, wurden vier Sätze vonTo test imbalance rate (imbalance rate above 5), four sets of
Ungleichgewichtsdatensätzen, UCI” und KEEL®, für die Matlab-Simulation ausgewählt (sieheDisequilibrium data sets, “UCI” and KEEL®, were selected for the Matlab simulation (see
Tabelle 1);Table 1);
Tabelle 1: 4 unausgewogene Datensätze 2000Table 1: 4 unbalanced data sets 2000
Datensatz Quelle pes Aubaeeene LateData set source pes Aubaeeene Late
Spambase UCI 4 601 57 IntogerKral 1.54 lonosphere LN 351 34 Integer/Real 1,786Spambase UCI 4 601 57 IntogerKral 1.54 ionosphere LN 351 34 Integer/Real 1.786
Segment? KEEL 2308 19 Real 5.02Segments? KEEL 2308 19 Reals 5.02
Hass? KEEL 214 $ Real 11,58 4.2 Experimenteller BewertungsindexHate? KEEL $214 Real 11.58 4.2 Experimental Valuation Index
Die Konvention in der unausgewogenen Datensatz Minderheitsklasse Proben als P,The convention in the unbalanced dataset minority class samples as P,
Mehrheitsklasse Proben als N, konstruieren die Konfusion Matrix wie in Tabelle 2 dargestellt:Majority class samples as N, construct the confusion matrix as shown in Table 2:
Tabelle 2: Binäre KonfusionsmatrixTable 2: Binary confusion matrix
Positive Kategorie TP FNPositive category TP FN
Umgekehrte Kategorie Fp TNReverse category Fp TN
TN bezieht sich auf die ursprüngliche Mehrheitsklasse, und die Vorhersage ist immer noch die Mehrheitsklasse. Auf der Grundlage der Konfusionsmatrix werden eine Reihe vonTN refers to the original majority class, and the prediction is still the majority class. Based on the confusion matrix, a number of
BewertungsmaBstäben wie Gesamtgenauigkeit (Acc), Korrektheitsrate (TPR),Evaluation criteria such as overall accuracy (Acc), correctness rate (TPR),
Wiedererkennungswert (Recall), Genauigkeit der Nebenklasse (MIA), Präzision, F-Maß, AUC usw. definiert;Recall, MIA, Precision, F-Measure, AUC, etc. defined;
Die Gesamtgenauigkeit des Klassifikators wird wie in Gleichung (1) dargestellt berechnet:The overall accuracy of the classifier is calculated as shown in equation (1):
TP+IN £8 Lié +. SOU EN (1)TP+IN £8 Lié +. SOU EN (1)
Die Uberpriifungsrate des Klassifikators, auch bekannt als Unterklassengenauigkeit oder positive Genauigkeit, wird wie in Gleichung (2) dargestellt berechnet:The verification rate of the classifier, also known as subclass accuracy or positive accuracy, is calculated as shown in equation (2):
J LU504988J LU504988
TPR = Recall = Mid = 7TPR = Recall = Mid = 7
TEETEA
Die Auffindungsrate des Klassifikators, die auch die Auffindungsrate der kleinen Klasse vonThe discovery rate of the classifier, which is also the discovery rate of the small class of
Stichproben ist, wird wie in Gleichung (3) dargestellt berechnet:Sampling is calculated as shown in equation (3):
Precision = AEPrecision = AE
FEL FR (3)FEL FR (3)
Das F-Maß ist ein Bewertungskriterium, das auf die Klassifizierung von unausgewogenenThe F-measure is an evaluation criterion aimed at classifying unbalanced
Datensätzen ausgerichtet ist, wie in Gleichung (4) dargestellt: _ {1+ & Vo Recall x Precision & x Recall + Precision (4) b ist der Koeffizient, der die Präzision und den Wiedererkennungswert reguliert und normalerweise den Wert 1 annimmt, d.h. F1, und der Wert von F1 wird für die Bewertung der unausgewogenen Klassifizierungsleistung verwendet;datasets, as shown in equation (4): _ {1+ & Vo Recall x Precision & x Recall + Precision (4) b is the coefficient that regulates precision and recall and usually takes the value 1, i.e. F1 , and the value of F1 is used for evaluating the unbalanced classification performance;
Die ROC-Kurve ist ein zweidimensionales Diagramm mit der Falsch-Positiv-Rate (FP) als x-The ROC curve is a two-dimensional graph with the false positive rate (FP) as x-
Achse und der Wahr-Rate (TP) als y-Achse, und die Fläche unter der ROC-Kurve wird durch AUC dargestellt, die häufig zur Bewertung der Leistung des Klassifizierers verwendet wird, weshalb in dieser Arbeit der AUC-Wert als einer der Indikatoren für die Bewertung der Klassifizierer verwendet wird; 4.3 Experimentelle Plattformaxis and the true rate (TP) as the y-axis, and the area under the ROC curve is represented by AUC, which is often used to evaluate the performance of the classifier, so in this work the AUC value as one of the indicators used for evaluating the classifiers; 4.3 Experimental platform
Die experimentelle Umgebung ist ein 64-bit Mac OS Sierra Betriebssystem, 8GB RAM,The experimental environment is a 64-bit Mac OS Sierra operating system, 8GB RAM,
IntelCorei5 Prozessor, mit MatlabR2017a für Simulationsexperimente, Datenvorverarbeitung mitIntel Corei5 processor, with MatlabR2017a for simulation experiments, data preprocessing with
ClassificationLearner Anwendungspaket. 4.4 ErgebnisanalyseClassificationLearner application package. 4.4 Results analysis
Durch Simulationsexperimente wird die Klassifizierungsleistung des Decision-Stump-Through simulation experiments, the classification performance of the decision stump
Algorithmus, des KNN-Algorithmus, des Bagging-Algorithmus auf der Basis von Decision-Stump und des Bagging-Algorithmus auf der Basis von KNN verglichen. Die ersten beiden Algorithmen gehören zu den traditionellen Klassifizierungsalgorithmen, die beiden letzteren zu den integriertenAlgorithm, the KNN algorithm, the Bagging algorithm based on Decision-Stump and the Bagging algorithm based on KNN were compared. The first two algorithms belong to the traditional classification algorithms, the latter two to the integrated ones
Klassifizierungsalgorithmen auf der Grundlage von Basisklassifikatoren. Die experimentellenClassification algorithms based on base classifiers. The experimental ones
Ergebnisse sind in den Tabellen 3 bis 6 dargestellt. Die schwarzen Zahlen in der Tabelle zeigen die experimentellen Ergebnisse mit dem besten Leistungsindex an;Results are shown in Tables 3 to 6. The black numbers in the table indicate the experimental results with the best performance index;
Tabelle 3 Vergleich der Leistungsindizes der Experimente mit dem Datensatz SpambaseTable 3 Comparison of the performance indices of the experiments with the Spambase dataset
TTSTTS
LT NELT NE
Tecision-Brenp GT GER OXFTecision-Brenp GT GER OXF
KENN AN {13} GSKENN AN {13} GS
Unausgewogel posing (Devision-Stanp) 095 099 0.90Unbalanced posing (Devision-Stanp) 095 099 0.90
Bagging (ANN) {SI {EST eg _Bagging (ANN) {SI {EST eg _
Dogisicn-Stumg 180 108 ERDogisicn-Stumg 180 108 ER
Ausgewogen KANN 9,54 fd {1.534Balanced CAN 9.54 fd {1,534
ECPOM Bagging (Deckslon-Stump} 180 1880 amECPOM Bagging (Deckslon-Stump} 180 1880 am
Haggine {RAS} $.92 8,98 3h92Haggine {RAS} $.92 8.98 3h92
Tabelle 4 Vergleich der einzelnen Leistungskennzahlen für Experimente mit dem DatensatzTable 4 Comparison of individual performance metrics for experiments on the data set
Ionosphäre ee ess ss Oï a esIonosphere ee ess ss Oï a es
Decision-Sremp Es BH HASHDecision-Sremp It BH HASH
KKK 087 883 05KKK 087 883 05
Lnausgewogen Bagginp {Dection-Siuem 8,03 4.58 BRLnbalanced Bagginp {Dection-Siuem 8.03 4.58 BR
Hagging (KNN} 282 196 83Hagging (KNN} 282 196 83
Decision Stamp 4.94 &.95 HEDecision Stamp 4.94 &.95 HE
Ausgewogen KERN ès 8,98 8,98Balanced CORE is 8.98 8.98
ECTUM Bagging {Decipen-Rlumpr 0 1.80 HAECTUM Bagging {Decipen-Rlumpr 0 1.80 HA
Hagging (KNN} 4.93 8,95 8233Hagging (KNN} 4.93 8.95 8233
Tabelle 5 Vergleich der einzelnen Leistungskennzahlen für Experimente mit dem DatensatzTable 5 Comparison of individual performance metrics for experiments on the data set
Segment0 co Ii NN oo ,.,Segment0 co Ii NN oo ,.,
Devise Bin de (98 88Motto Bin de (98 88
Unaus Zewo ge N BN R 2 . 83 #83 3 BEUnaus Zewo ge N BN R 2 . 83 #83 3 BE
Bagging (Deciston-Sump 096 LE gas ee Bag RNIN BIS 096Bagging (Deciston-Sump 096 LE gas ee Bag RNIN TO 096
Kissen Siena 1 Lie ssPillow Siena 1 Lie ss
Ausgewogen KNN #25 1,69 4.96Balanced KNN #25 1.69 4.96
BOFCM Bazgme (Devisson-Shangy 1.98 its 138BOFCM Bazgme (Devisson-Shangy 1.98 its 138
DB (RN A BRS OREDB (RN A BRS ORE
Tabelle 6 Vergleich der einzelnen Leistungskennzahlen für Experimente mit dem DatensatzTable 6 Comparison of individual performance metrics for experiments on the dataset
Glass2Glass2
Deeps Alsi eee a ADeeps Alsi eee a A
DegisionNtuny Use 867 ded ; KNN to 20862 887DegisionNtuny Use 867 ded ; KNN to 20862 887
UBAUSESWOBER ping (Docision-Stumpi 0.93 088 0.86UBAUSESWOBER ping (Docision-Stumpi 0.93 088 0.86
Bagging (KENNY SOS ARBagging (KENNY SOS AR
Peciston-Stenyy 834 882 anPeciston-Stenyy 834 882
Ausgewogen RMN UNE SE | A 86Balanced RMN UNE SE | A86
ECFCM Hagging (Decision-Stump} 497 1080 888ECFCM Hagging (Decision Stump} 497 1080 888
Bagging (KNK) gas 8863 055Bagging (KNK) gas 8863 055
Anhand von Tabelle 3 bis Tabelle 6 wird die durchschnittliche Verbesserung des Acc-, AUC- und F1-Wertes des ECFCM-Algorithmus fiir ausgeglichene bzw. unausgewogene Daten berechnet, und die Veränderung jedes Indexes wird in Prozent ausgedrückt (+ steht fiir eine Verbesserung, - für eine Verschlechterung), wie in Tabelle 7 dargestellt;From Table 3 to Table 6, the average improvement in Acc, AUC and F1 value of the ECFCM algorithm is calculated for balanced and unbalanced data, respectively, and the change in each index is expressed as a percentage (+ represents improvement, - for deterioration), as shown in Table 7;
Tabelle 7: Verbesserung der Klassifizierungsleistung des ECFCM-Algorithmus (%)Table 7: Improvement in classification performance of ECFCM algorithm (%)
Spanbasg +8,75 +453 +7,84 lonosphere +249 +463 +182Spanbasg +8.75 +453 +7.84 lonosphere +249 +463 +182
Segment £3.36 +0,52 —3,58Segment £3.36 +0.52 -3.58
Glass? — 84 +1384 +8 0%Glass? — 84 +1384 +8 0%
Avg 47 +3 8% +2,33Avg 47 +3 8% +2.33
Bei Verwendung des ECFCM-Algorithmus für die Klassifizierung verbesserten sich die Acc-,When using the ECFCM algorithm for classification, the Acc,
AUC- und F1-Werte des Algorithmus im Durchschnitt um bis zu 5,75 % (Spambase), 13,84 % (Glass2) und 7,54 % (Spambase). Bei den Datensätzen SegmentO und Glass2 sanken die Acc-Algorithm AUC and F1 values on average up to 5.75% (Spambase), 13.84% (Glass2) and 7.54% (Spambase). For the SegmentO and Glass2 data sets, the Acc-
Werte des Algorithmus um 0,26 % bzw. 9,84 %. Die Analyse zeigt, dass dies auf die unausgewogene Rate der beiden Datensätze von 6,02 bzw. 11,59 zurückzuführen ist. Je größer die unausgewogene Rate des Datensatzes ist, desto mehr gültige Stichproben gehen beim Under-Values of the algorithm by 0.26% and 9.84%, respectively. The analysis shows that this is due to the imbalanced rate of the two datasets, 6.02 and 11.59, respectively. The larger the imbalance rate of the data set, the more valid samples are lost in the under-
Sampling in den meisten Klassen verloren, d. h. der Verlust von Datenstichproben am Rande derSampling lost in most classes, i.e. H. the loss of data samples at the edge of the
Klassifizierung wirkt sich auf das Klassifizierungsergebnis aus, was zu einer Verringerung derClassification affects the classification result, resulting in a reduction
Klassifizierungsgenauigkeit führt;classification accuracy leads;
Im Vergleich zu den vier Sätzen mit unausgewogenen Daten verbessert der ECFCM-Compared to the four sets of unbalanced data, the ECFCM improves
Algorithmus die AUC- und F1-Werte um durchschnittlich 5,88 % und 2,73 % bei den vier Sätzen mit ausgewogenen Daten. Auf dem ausgewogenen Datensatz schneidet der Bagging(Decision-algorithm increased the AUC and F1 values by an average of 5.88% and 2.73% for the four sets of balanced data. On the balanced data set, the Bagging(Decision-
Stump)-Algorithmus bei den drei Metriken besser ab als die anderen drei Algorithmen. Es ist zu erkennen, dass der Bagging(Decision-Stump)-Algorithmus besser für die Klassifizierung vonStump) algorithm performed better on the three metrics than the other three algorithms. It can be seen that the Bagging (Decision-Stump) algorithm is better for the classification of
Minderheitenproben geeignet ist. Gleichzeitig sind die F1-Werte der Algorithmen Decision-Stump und Bagging(Decision-Stump) höher als ihre jeweiligen F1-Werte im unausgewogenen Datensatz, was darauf hindeutet, dass der ECFCM-Algorithmus in der Lage ist, die Vollständigkeit derMinority samples are suitable. At the same time, the F1 values of the Decision-Stump and Bagging(Decision-Stump) algorithms are higher than their respective F1 values in the unbalanced data set, indicating that the ECFCM algorithm is able to ensure the completeness of the
Prüfung und die Genauigkeit der Prüfung von Minderheitenproben zu verbessern, d. h. er ist effektiver bei der Klassifizierung von Minderheitenproben; LU504988Testing and improving the accuracy of testing of minority samples, i.e. H. it is more effective in classifying minority samples; LU504988
Zusammenfassend lässt sich sagen, dass der ECFCM-Algorithmus die umfassende Leistung der Klassifizierung von unausgewogenen Daten effektiv verbessern kann, insbesondere wenn dieIn summary, the ECFCM algorithm can effectively improve the comprehensive performance of classification of imbalanced data, especially when the
Unausgewogenheitsrate der unausgewogenen Daten weniger als 5 beträgt, und dass er dieImbalance rate of the imbalanced data is less than 5 and that it is the
Klassifizierungsleistung einiger weniger Klassen von Proben effektiv verbessert, was dieClassification performance of a few classes of samples effectively improved, which makes the
Durchführbarkeit und Wirksamkeit des ECFCM-Algorithmus bei der Klassifizierung von unausgewogenen Daten beweist.Proves feasibility and effectiveness of the ECFCM algorithm in classifying imbalanced data.
Obwohl Ausführungsformen der vorliegenden Erfindung gezeigt und beschrieben wurden, ist es für den Fachmann selbstverständlich, dass eine Vielzahl von Änderungen, Modifikationen,Although embodiments of the present invention have been shown and described, it will be apparent to those skilled in the art that various changes, modifications,
Ersetzungen und Variationen an diesen Ausführungsformen vorgenommen werden können, ohne von den Grundsätzen und dem Geist der vorliegenden Erfindung abzuweichen, und der Umfang der vorliegenden Erfindung wird durch die beigefiigten Anspriiche und deren Aquivalente begrenzt.Substitutions and variations may be made to these embodiments without departing from the principles and spirit of the present invention, and the scope of the present invention is limited by the appended claims and their equivalents.
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LU504988A LU504988B1 (en) | 2023-08-23 | 2023-08-23 | A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LU504988A LU504988B1 (en) | 2023-08-23 | 2023-08-23 | A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering |
Publications (1)
Publication Number | Publication Date |
---|---|
LU504988B1 true LU504988B1 (en) | 2024-02-26 |
Family
ID=90107143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
LU504988A LU504988B1 (en) | 2023-08-23 | 2023-08-23 | A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering |
Country Status (1)
Country | Link |
---|---|
LU (1) | LU504988B1 (en) |
-
2023
- 2023-08-23 LU LU504988A patent/LU504988B1/en active IP Right Grant
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60208223T2 (en) | ARRANGEMENT AND METHOD FOR FACE DETECTION USING PARTS OF THE LEARNED MODEL | |
DE69324207T2 (en) | Image grouping device | |
DE102019209565A1 (en) | Method and device for checking the robustness of an artificial neural network | |
DE69424196T2 (en) | Automatic character recognition using static and dynamic parameters | |
DE112022000106T5 (en) | Transmission fault diagnosis and signal acquisition method, apparatus and electronic device | |
DE112017007492T5 (en) | System and method for capturing objects in a digital image and system and method for re-evaluating object capturing | |
DE102006010607A1 (en) | Object localization method, involves calculating probability values for limitation boxes in input image based on probability that object is arranged in these locations, and selecting box with highest probability as location of object | |
WO2020260016A1 (en) | Method and apparatus for training a machine learning system | |
DE202022102752U1 (en) | A novel system of stacked parallel convolutional layers with an attentional module for classifying images of diabetic foot ulcers and normal skin | |
LU504988B1 (en) | A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering | |
EP0749613B1 (en) | Knowledge-based fuzzy selection for recognition system having several recognition units | |
DE10250100A1 (en) | Microscope system and method for the analysis and evaluation of multiple staining of a microscopic object | |
DE19636074A1 (en) | Adaptive image processing system for object classification | |
DE102020208474B4 (en) | Measuring the sensitivity of classifiers based on interacting disturbances | |
DE102021207613A1 (en) | Process for quality assurance of a system | |
DE102017217099A1 (en) | Method for investigating a functional behavior of a technical system and evaluation unit | |
DE102019204118A1 (en) | Method for transferring a feature of a first image to a second image | |
WO2004017252A1 (en) | Method for evaluating the signals of an electronic image sensor during pattern recognition of image contents in a test piece | |
DE102021204040A1 (en) | Method, device and computer program for creating training data in the vehicle | |
DE102005028252A1 (en) | Method for the computer-aided processing of digital data | |
WO2020187394A1 (en) | Method for training an autoencoder and for classifying data, and autoencoder and computer program for this purpose | |
DE60309191T2 (en) | SYSTEM FOR FUZZY ASSOCIATES DESCRIPTION OF MULTIMEDIA OBJECTS | |
DE102016113310A1 (en) | A method for evaluating statements of a plurality of sources about a plurality of facts | |
DE102023106554A1 (en) | Method for fault analysis of a component and electronic computing device | |
DE202022106132U1 (en) | A deep learning-based Parkinson's detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Patent granted |
Effective date: 20240226 |