LU504988B1 - A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering - Google Patents

A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering Download PDF

Info

Publication number
LU504988B1
LU504988B1 LU504988A LU504988A LU504988B1 LU 504988 B1 LU504988 B1 LU 504988B1 LU 504988 A LU504988 A LU 504988A LU 504988 A LU504988 A LU 504988A LU 504988 B1 LU504988 B1 LU 504988B1
Authority
LU
Luxembourg
Prior art keywords
fuzzy
samples
data
means clustering
classification
Prior art date
Application number
LU504988A
Other languages
German (de)
Inventor
Lianjie Xiao
Original Assignee
Univ Nanjing Posts & Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nanjing Posts & Telecommunications filed Critical Univ Nanjing Posts & Telecommunications
Priority to LU504988A priority Critical patent/LU504988B1/en
Application granted granted Critical
Publication of LU504988B1 publication Critical patent/LU504988B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • G06N7/023Learning or tuning the parameters of a fuzzy system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die vorliegende Erfindung bezieht sich auf das Gebiet der integrierten Lerntechnologie, insbesondere auf ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, das die folgenden Schritte umfasst: Unterabtastung auf der Grundlage von Fuzzy C-Mittelwert-Clustering; integriertes Lerntraining; integriertes Lerntesten; und experimentelle Analyse; Der vorteilhafte Effekt ist: das integrierte Unterproben-Klassifizierungsverfahren für unausgewogene Daten auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, das durch die vorliegende Erfindung vorgeschlagen wird, durch Fuzzy-C-Mittelwert-Clustering (FuzzyC-Means clustering, FCM) ist ein Clustering- Verfahren, das eine Fuzzy-Matrix auf der Grundlage der Attributeigenschaften des Forschungsobjekts selbst konstruiert und die Klassifizierungsbeziehung auf der Grundlage des berechneten Zugehörigkeitsgrads bestimmt. Der Fuzzy-C-Mittelwert-Clustering-Algorithmus hat die Vorteile einer einfachen Klassifizierung und einer hohen Klassifizierungsgenauigkeit. Aus der Perspektive der Datenvorverarbeitung wird der Fuzzy-C-Mittelwert-Clustering-Algorithmus verwendet, um die unausgewogenen Daten zu unterproben, um die ausgewogenen Daten zu erhalten, und der integrierte Lernalgorithmus wird verwendet, um die Klassifizierungsgenauigkeit einiger Klassen zu verbessern.The present invention relates to the field of integrated learning technology, particularly to a method for classifying integrated imbalance data with subsampling based on fuzzy C-mean clustering, comprising the following steps: subsampling based on fuzzy C-mean -clustering; integrated learning training; integrated learning testing; and experimental analysis; The advantageous effect is: the integrated sub-sample classification method for imbalanced data based on fuzzy C-means clustering proposed by the present invention is by fuzzy C-means clustering (FCM). a clustering method that constructs a fuzzy matrix based on the attribute characteristics of the research object itself and determines the classification relationship based on the calculated membership degree. The fuzzy C-means clustering algorithm has the advantages of easy classification and high classification accuracy. From the perspective of data preprocessing, the fuzzy C-means clustering algorithm is used to subsample the unbalanced data to obtain the balanced data, and the built-in learning algorithm is used to improve the classification accuracy of some classes.

Description

Ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit LU504988A method for classifying integrated disequilibrium data using LU504988

Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-ClusteringSubsampling based on fuzzy c-means clustering

Technischer BereichTechnical part

Die vorliegende Erfindung bezieht sich auf das Gebiet der integrierten Lerntechnologie, insbesondere auf ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mitThe present invention relates to the field of integrated learning technology, particularly to a method for classifying integrated imbalance data

Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering.Subsampling based on fuzzy c-means clustering.

Technologie im HintergrundTechnology in the background

Die Klassifizierung ist eine der wichtigsten Forschungsrichtungen auf dem Gebiet des maschinellen Lernens. Herkdmmliche Klassifizierungsalgorithmen können das Problem der ausgewogenen Datenklassifizierung gut lösen und die Gesamtgenauigkeit der Klassifizierung alsClassification is one of the main research directions in the field of machine learning. Traditional classification algorithms can solve the problem of balanced data classification well, and the overall accuracy of classification as

Bewertungskriterium verwenden.Use evaluation criteria.

In der bestehenden Technologie ist die Anzahl der Stichproben zwischen verschiedenenIn the existing technology, the number of samples varies between different

Klassen in der Praxis oft unausgewogen, z. B. bei der medizinischen Diagnose, der Vorhersage von Softwarefehlern, der Uberwachung von Kreditkartenbetrugstransaktionen, derClasses in practice are often unbalanced, e.g. E.g. in medical diagnosis, predicting software errors, monitoring credit card fraud transactions, etc

Stimmungsanalyse, der Vorhersage der Kundenabwanderung usw., und in diesen Bereichen neigt man dazu, den Klassifizierungsergebnissen der Stichproben einiger weniger Klassen mehrSentiment analysis, customer churn prediction, etc., and in these areas one tends to give more preference to the classification results of sampling a few classes

Aufmerksamkeit zu schenken.to pay attention.

Da es jedoch wahrscheinlicher ist, dass die Stichproben einer Minderheitenklasse vomHowever, since it is more likely that the samples of a minority class from

Klassifikator falsch klassifiziert werden, hat eine Fehlklassifizierung erhebliche Auswirkungen auf die Genauigkeit des Klassifikators. Nehmen wir das binäre Klassifizierungsproblem als Beispiel:If a classifier is misclassified, misclassification has a significant impact on the accuracy of the classifier. Let's take the binary classification problem as an example:

Angenommen, das Verhältnis der Anzahl der Stichproben zwischen den Klassen im Datensatz beträgt 1:99, dann neigt der Klassifikator, wenn die Gesamtklassifizierungsgenauigkeit alsAssuming that the ratio of the number of samples between classes in the data set is 1:99, then the classifier tends if the overall classification accuracy is as

Kriterium herangezogen wird, eher zur Mehrheitsklasse mit einer größeren Anzahl voncriterion is used, tends to belong to the majority class with a larger number of

Stichproben, und obwohl die berechnete Genauigkeit 99 % erreicht, ist ein solchesSamples, and although the calculated accuracy reaches 99%, is such

Klassifizierungsergebnis offensichtlich bedeutungslos. Daher ist es besonders wichtig, einen optimierten Klassifizierungsalgorithmus für die Klassifizierung unausgewogener Daten zu entwickeln.Classification result obviously meaningless. Therefore, it is particularly important to develop an optimized classification algorithm for classifying imbalanced data.

Inhalt der ErfindungContent of the invention

Ziel der vorliegenden Erfindung ist es, ein Verfahren zur Klassifizierung von unterabgetasteten integrierten Ungleichgewichtsdaten auf der Grundlage von Fuzzy-C-Mittelwert-The aim of the present invention is to provide a method for classifying undersampled integrated imbalance data based on fuzzy C-means.

Clustering bereitzustellen, um die im obigen Stand der Technik angesprochenen Probleme zu lösen.To provide clustering to solve the problems raised in the prior art above.

Um das oben genannte Ziel zu erreichen, stellt die vorliegende Erfindung die folgende technische Lösung bereit: ein Verfahren zur Klassifizierung von unterabgetasteten integriertenIn order to achieve the above objective, the present invention provides the following technical solution: a method for classifying undersampled integrated

Ungleichgewichtsdaten auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, wobei dasDisequilibrium data based on fuzzy C-means clustering, where the

Verfahren die folgenden Schritte umfasst:Procedure includes the following steps:

Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering;subsampling based on fuzzy C-means clustering;

Training des Integrationslernens;Integration learning training;

Testen des Integrationslernens;testing integration learning;

Experimentelle Analyse.Experimental analysis.

Vorzugsweise umfasst das auf Fuzzy-C-Mittelwert-Clustering basierende Under-Sampling die folgenden spezifischen Operationen:Preferably, fuzzy C-means clustering based under-sampling includes the following specific operations:

Unterabtastung der Proben der Mehrheitsklasse für das Clustering unter Verwendung desSubsampling the majority class samples for clustering using the

FCM-Algorithmus,Festlegen des Wertes von k auf die Anzahl der Proben der Minderheitsklasse, k=nı, k Proben, die aus Clustering-Zentren anstelle der ursprünglichen Datenproben derFCM algorithm,Setting the value of k to the number of samples of the minority class, k=nı, k samples obtained from clustering centers instead of the original data samples of the

Mehrheitsklasse bestehen,und Erhalten eines ausgeglichenen Datensatzes, der aus einer ähnliché:/504988Majority class consist,and obtain a balanced data set consisting of a similaré:/504988

Anzahl von Datenproben der beiden Klassen besteht.Number of data samples of the two classes exists.

Vorzugsweise umfasst das auf Fuzzy-C-Mittelwert-Clustering basierende Undersampling außerdem die folgenden spezifischen Operationen:Preferably, fuzzy C-means clustering based undersampling also includes the following specific operations:

Trainieren eines Klassifizierers auf dem erhaltenen ausgeglichenen Datensatz undTraining a classifier on the obtained balanced dataset and

Durchführen mehrerer Klassifizierungsexperimente; Aufteilen des Satzes von Datenproben in einen Satz von Minderheitsklassenproben und einen Satz von Mehrheitsklassenproben; Clustern der Mehrheitsklassenproben und Bilden eines ausgeglichenen Datensatzes mit den Zentren der erhaltenen Cluster und allen Minderheitsklassenproben; Nach der Unterabtastung wird sichergestellt, dass die Anzahl der Proben der Mehrheitsklasse mit der Anzahl der Proben derConducting multiple classification experiments; dividing the set of data samples into a set of minority class samples and a set of majority class samples; clustering the majority class samples and forming a balanced data set with the centers of the obtained clusters and all minority class samples; After subsampling, it is ensured that the number of samples of the majority class is the same as the number of samples of the

Minderheitsklasse ausgeglichen ist, und die Anzahl der Cluster der Proben der Mehrheitsklasse wird auf die Anzahl der Proben der Minderheitsklasse eingestellt.Minority class is balanced, and the number of clusters of majority class samples is set to the number of minority class samples.

Vorzugsweise umfasst der integrierte Lerntrainingsvorgang Folgendes:Preferably, the integrated learning training process includes the following:

Besteht keine starke Abhängigkeit zwischen den Basisklassifikatoren, wird dasIf there is no strong dependency between the base classifiers, this will

Klassifizierungsmodell parallel generiert, besteht eine starke Abhängigkeit zwischen denClassification model generated in parallel, there is a strong dependency between the

Basisklassifikatoren, muss das Klassifizierungsmodell seriell generiert werden. Die paralleleBase classifiers, the classification model must be generated serially. The parallel

Generierung des Klassifizierungsmodells wird typischerweise durch den Bagging-Algorithmus und die serielle Generierung des Klassifizierungsmodells durch den Boosting-Algorithmus repräsentiert.Generation of the classification model is typically represented by the bagging algorithm and the serial generation of the classification model by the boosting algorithm.

Vorzugsweise umfasst die spezifische Operation des integrierten Lerntests:Preferably, the specific operation of the integrated learning test includes:

Auswahl von Decision-Stump mit KNN als Basisklassifikator im integriertenSelecting Decision-Stump with KNN as the base classifier in the integrated

Lernalgorithmus.Learning algorithm

Vorzugsweise umfassen die spezifischen Operationen der experimentellen Analyse:Preferably, the specific operations of the experimental analysis include:

Auswahl mehrerer unbalancierter Datensätze für die Matlab-Simulation;Selecting multiple unbalanced data sets for Matlab simulation;

Schlussfolgerung, dass die Stichproben der Minderheitenklasse im unausgewogenenConclusion that the minority class samples are imbalanced

Datensatz P und die Stichproben der Mehrheitsklasse N sind;Dataset P and the majority class samples are N;

Anhand der Konfusionsmatrix werden eine Reihe von Bewertungsindizes für dieUsing the confusion matrix, a series of evaluation indices are created for the

Gesamtgenauigkeit, die Korrektheitsrate, die Rate für die Überprüfung aller Klassen, dieOverall accuracy, the correctness rate, the rate for checking all classes, the

Genauigkeit der Minderheitenklassen, die Rate für die Überprüfung der Richtigkeit, das F-Maß und der AUC definiert, wobei die Gesamtgenauigkeit des Klassifizierers gemäß Gleichung (1) berechnet wird: . TP+INMinority class accuracy, correctness verification rate, F-measure and AUC are defined, with the overall accuracy of the classifier calculated according to Equation (1): . TP+IN

TP+IN FPL FS (1)TP+IN FPL FS (1)

Die Uberpriifungsrate des Klassifikators, auch bekannt als Unterklassengenauigkeit oder positive Genauigkeit, wird wie in Gleichung (2) dargestellt berechnet:The verification rate of the classifier, also known as subclass accuracy or positive accuracy, is calculated as shown in equation (2):

Cn TFCnTF

TER = Reval = Mid = SSDETTER = Reval = Mid = SSDET

TP + FN (2)TP + FN (2)

Die Auffindungsrate des Klassifikators, die auch die Auffindungsrate der kleinen Klasse vonThe discovery rate of the classifier, which is also the discovery rate of the small class of

Stichproben ist, wird wie in Gleichung (3) dargestellt berechnet:Sampling is calculated as shown in equation (3):

SESE

Precision = TEPrecision = TE

TP + FE (3)TP + FE (3)

Das F-Maß ist ein Bewertungskriterium, das auf die Klassifizierung von unausgewogenenThe F-measure is an evaluation criterion aimed at classifying unbalanced

Datensätzen ausgerichtet ist, wie in Gleichung (4) dargestellt: LU504988Data sets aligned as shown in Equation (4): LU504988

N (led Vx Recall « Precision # * m SEE = SS Spa &° x Recall + Precision (4) b ist ein Koeffizient zur Regulierung von Precision und Recall, der normalerweise den Wert 1 annimmt, d.h. Fl, und der F1-Wert wird für die Bewertung der unausgewogenenN (led Vx Recall « Precision # * m SEE = SS Spa &° x Recall + Precision (4) b is a coefficient for regulating precision and recall, which usually takes the value 1, i.e. Fl, and becomes the F1 value for evaluating the unbalanced

Klassifikationsleistung verwendet.Classification performance used.

Die vorteilhaften Auswirkungen der vorliegenden Erfindung im Vergleich zum Stand derThe advantageous effects of the present invention compared to the prior art

Technik sind:Technology are:

Die vorliegende Erfindung schlägt eine integrierte Klassifizierungsmethode für unausgewogene Daten vor, die auf Fuzzy-C-Mittelwert-Clustering basiert, und zwar durch Fuzzy-The present invention proposes an integrated classification method for imbalanced data based on fuzzy C-means clustering through fuzzy

C-Mittelwert-Clustering (FuzzyC-Means clustering, FCM), eine Clustering-Methode, die eineC-means clustering (FuzzyC-Means clustering, FCM), a clustering method that uses a

Fuzzy-Matrix auf der Grundlage der Attributeigenschaften des Forschungsobjekts selbst konstruiert und die Klassifizierungsbeziehung auf der Grundlage des berechnetenFuzzy matrix constructed based on the attribute characteristics of the research object itself and the classification relationship based on the calculated

Zugehörigkeitsgrads bestimmt. Der Fuzzy-C-Mittelwert-Clusteralgorithmus hat die Vorteile einer einfachen Klassifizierung und einer hohen Klassifizierungsgenauigkeit. Aus der Perspektive derDegree of membership determined. The fuzzy C-means clustering algorithm has the advantages of easy classification and high classification accuracy. From the perspective of the

Datenvorverarbeitung wird der Fuzzy-C-Mean-Clustering-Algorithmus verwendet, um die unausgewogenen Daten zu unterproben, um die ausgewogenen Daten zu erhalten, und der integrierte Lernalgorithmus wird verwendet, um die Klassifizierungsgenauigkeit einiger Klassen zu verbessern. Die Grundidee besteht darin, den Fuzzy-C-Mittelwert-Clustering-Algorithmus zu verwenden, um die Stichproben der Mehrheitsklasse im unausgewogenen Datensatz zu unterproben, so dass der ausgewogene Datensatz aus allen Clusterschwerpunkt-Stichproben und allen Stichproben der Minderheitsklasse bestehen kann. Zur Klassifizierung des ausgewogenenData preprocessing, the fuzzy C-mean clustering algorithm is used to subsample the unbalanced data to obtain the balanced data, and the built-in learning algorithm is used to improve the classification accuracy of some classes. The basic idea is to use the fuzzy C-means clustering algorithm to subsample the majority class samples in the unbalanced data set, so that the balanced data set can consist of all cluster centroid samples and all minority class samples. To classify the balanced

Datensatzes wird ein integrierter Lernalgorithmus auf der Grundlage von Bagging verwendet, der schließlich zu einer besseren Klassifizierungsleistung führt.Data set, a built-in learning algorithm based on bagging is used, which ultimately leads to better classification performance.

Beschreibung der beigefügten ZeichnungenDescription of the attached drawings

Bild 1 zeigt ein Diagramm der Verteilung der Datenmerkmale vor dem Clustering der vorliegenden Erfindung;Figure 1 shows a diagram of the distribution of data features before clustering of the present invention;

Bild 2 zeigt ein Diagramm der Verteilung der Datenmerkmale nach dem Clustering der vorliegenden Erfindung;Figure 2 shows a diagram of the distribution of data features after clustering of the present invention;

Bild 3 zeigt ein Flussdiagramm der Implementierung von Bagging im Sinne der vorliegendenFigure 3 shows a flowchart of the implementation of bagging in the sense presented here

Erfindung.Invention.

Detaillierte BeschreibungDetailed description

Um den Zweck der vorliegenden Erfindung, die technischen Lösungen für eine klare und vollständige Beschreibung, und die Vorteile klarer zu verstehen, sind die folgendenIn order to more clearly understand the purpose of the present invention, the technical solutions for a clear and complete description, and the advantages are as follows

Ausführungsformen der vorliegenden Erfindung im Detail in Verbindung mit den beigefügtenEmbodiments of the present invention are described in detail in connection with the accompanying

Zeichnungen beschrieben. Es sollte verstanden werden, dass die spezifischen Ausführungsformen hierin beschrieben sind Teil der Ausführungsformen der vorliegenden Erfindung, nicht alle derDrawings described. It should be understood that the specific embodiments described herein are part of, not all, the embodiments of the present invention

Ausführungsformen, nur für die Erläuterung der Ausführungsformen der vorliegenden Erfindung, und wird nicht verwendet, um die Ausführungsformen der vorliegenden Erfindung zu begrenzen, alle anderen Ausführungsformen, die von der gewöhnlichen Fachmann auf dem Gebiet, ohne dass kreative Arbeit unter der Prämisse des Schutzes der vorliegenden Erfindung gehört zu demEmbodiments, only for the explanation of the embodiments of the present invention, and is not used to limit the embodiments of the present invention, all other embodiments that can be made by the ordinary person skilled in the art, without creative work under the premise of protecting the present Invention is part of that

Umfang der vorliegenden Erfindung.Scope of the present invention.

Unter Bezugnahme auf die Bilder 1 bis 3 bietet die vorliegende Erfindung eine technischeReferring to Figures 1 to 3, the present invention provides a technical

Lösung: ein Verfahren zur Klassifizierung von unzureichend abgetasteten integrierten unausgewogenen Daten auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, wobei ah 4504988Solution: a method for classifying undersampled integrated imbalanced data based on fuzzy C-means clustering, where ah 4504988

Verfahren die folgenden Schritte umfasst: (1) Der Unterprobenprozess auf der Grundlage des Fuzzy-C-Mittelwert-Clustering-ECFCM-Method includes the following steps: (1) The subsampling process based on the fuzzy C-means clustering ECFCM

Algorithmus hat zwei Hauptprozesse: Erstens werden die Proben der Mehrheitsklasse unterAlgorithm has two main processes: First, the samples are taken from the majority class

Verwendung des FCM-Algorithmus geclustert und unterprobt, der k-Wert wird auf die Anzahl derUsing the FCM algorithm clustered and subsampled, the k value is set to the number of

Proben der Minderheitsklasse (d.h. 1kn) gesetzt, und die k Clusterzentren bilden die Proben anstelle der ursprünglichen Datenproben der Mehrheitsklasse. Daher besteht der erhaltene ausgewogene Datensatz aus zwei ähnlichen Zahlen von Datenproben. Zweitens wird derSamples of the minority class (i.e. 1kn) are set, and the k cluster centers form the samples in place of the original data samples of the majority class. Therefore, the obtained balanced data set consists of two similar numbers of data samples. Secondly, the

Klassifikator auf dem erhaltenen ausgewogenen Datensatz trainiert und es werden mehrereClassifier trained on the obtained balanced data set and there are several

Klassifizierungsexperimente durchgeführt. Im Vergleich zum zufälligen Under-Sampling kann das auf dem Fuzzy-C-Mean-Clustering basierende Under-Sampling die Anzahl der Stichproben für die Mehrheitsklasse reduzieren und gleichzeitig den Informationsverlust der Stichproben für dieClassification experiments conducted. Compared with random under-sampling, under-sampling based on fuzzy C-mean clustering can reduce the number of samples for the majority class while reducing the information loss of the samples for the

Mehrheitsklasse so weit wie möglich vermeiden. Der Under-Sampling-Prozess wird wie folgt beschrieben:Avoid majority class as much as possible. The under-sampling process is described as follows:

Eingabe: Unausgewogene Datensäize ofInput: Unbalanced data sets

Ausgabe: ausgeglichene Datensätze f°Output: balanced data sets f°

Initialisierung: =, dy =, k=0Initialization: =, dy =, k=0

For x'ed oy =0 ded UiFor x'ed oy =0 ded Ui

Else dy = dy U ix’)Else dy = dy U ix’)

Endif k = card{d" ds = fom Clustertk, a, } d'=d' UdyEndif k = card{d" ds = fom Clustertk, a, } d'=d' Udy

EndForEndFor

Der obige Pseudocode beschreibt den Prozess des Under-Sampling auf der Grundlage desThe above pseudocode describes the process of under-sampling based on the

Fuzzy-C-Mean-Clustering. Beim Under-Sampling-Verfahren wird zunächst der Datensatz in einenFuzzy C-mean clustering. With the under-sampling process, the data set is first divided into one

Satz von Minderheits- und einen Satz von Mehrheitsstichproben unterteilt; anschlieBend werden die Mehrheitsstichproben geclustert, und die Mittelpunkte der resultierenden Cluster und alleset of minority and a set of majority samples; then the majority samples are clustered, and the centers of the resulting clusters and all

Minderheitsstichproben bilden einen ausgewogenen Datensatz. Um sicherzustellen, dass dieMinority samples form a balanced data set. To ensure that the

Anzahl der Stichproben der Mehrheitsklasse mit der Anzahl der Stichproben der Minderheitsklasse ausgeglichen ist, wird die Anzahl der Cluster der Mehrheitsklasse auf die Anzahl der Stichproben der Minderheitsklasse festgelegt.The number of samples of the majority class is balanced with the number of samples of the minority class, the number of clusters of the majority class is set to the number of samples of the minority class.

Obwohl sich die Anzahl der Stichproben der Mehrheitsklasse nach dem Fuzzy-C-Mittelwert-Although the number of samples of the majority class varies according to the fuzzy C-means

Clustering verringert, ändert sich die räumliche Verteilung der Daten nicht, und die räumlicheClustering reduces, the spatial distribution of the data does not change, and the spatial

Verteilung der Daten vor und nach dem Clustering ist in den Bildern 1 und 2 dargestellt. Beiht/504988Distribution of data before and after clustering is shown in Figures 1 and 2. Beiht/504988

Under-Sampling auf der Grundlage des Fuzzy-C-Mittelwert-Clustering werden die Daten zwischen den Klassen mit Hilfe der Clustering-Methode von unausgewogen auf ausgewogen umgestellt, wobei die Merkmale der räumlichen Verteilung der Daten unverändert bleiben. Der 5 integrierte Klassifizierungsprozess basiert auf dem integrierten Lernalgorithmus, um die Regeln für die ausgeglichenen Daten zu erlernen und ein Klassifizierungsmodell zu erstellen. (2) Integriertes Lernen Trainingsprozess Lernen gibt es vor allem zwei Arten, nämlich, gibt es keine starke Abhängigkeit zwischen Basis-Klassifikatoren, die Klassifizierung Modelle parallel zu generieren, sowie gibt es eine starke Abhängigkeit zwischen Basis-Klassifikatoren, die seriell generiert werden müssen, um das Modell zu klassifizieren, ist die erste typischerweise durch dieUnder-sampling based on fuzzy C-means clustering, the data between classes is switched from unbalanced to balanced using the clustering method, while the characteristics of the spatial distribution of the data remain unchanged. The 5 built-in classification process is based on the built-in learning algorithm to learn the rules for the balanced data and build a classification model. (2) Integrated learning training process learning there are mainly two types, namely, there is no strong dependency between base classifiers that need to generate classification models in parallel, as well as there is a strong dependency between base classifiers that need to be generated serially, to classify the model, the first is typically by the

Bagging-Algorithmus vertreten, und die letztere ist typischerweise durch die Boosting-Bagging algorithm is represented, and the latter is typically represented by the boosting

Algorithmus vertreten. Da der Boosting-Algorithmus bei einigen praktischen Problemen zu einemAlgorithm represented. Since the boosting algorithm leads to some practical problems

Überanpassungsproblem (Over-fitting) führt, kann er schlechtere Klassifizierungsergebnisse liefern als ein einzelner Klassifikator, während der Bagging-Algorithmus solche Probleme besser vermeiden kann, weshalb in diesem Papier der Bagging-Algorithmus als Klassifikator für integriertes Lernen gewählt wird.Over-fitting problem, it can provide worse classification results than a single classifier, while the bagging algorithm can better avoid such problems, so in this paper, the bagging algorithm is chosen as the classifier for integrated learning.

Bagging-Implementierung Schritte sind: angesichts einer Basis-Klassifikator und TBagging implementation steps are: given a base classifier and T

Trainingssätze, jeder Trainingssatz besteht aus dem ersten Datensatz (die Gesamtzahl der Proben für N) in der zufälligen nnN (63,2%) ~x der Probe Zusammensetzung, Basis-KlassifikatorTraining sets, each training set consists of the first data set (the total number of samples for N) in the random nnN (63.2%) ~x of the sample composition, base classifier

Ausbildung T Runden, um T Prädiktionsfunktion Ft, mit T Prädiktionsfunktion jeweils auf denTraining T rounds to T prediction function Ft, with T prediction function each on the

Testsatz Vorhersage, und dann in Übereinstimmung mit der Mehrheit der Abstimmung Methode, um die endgültige Vorhersage Ergebnisse. Die Schritte der Bagging-Implementierung sind in Bild 3 dargestellt. (3) Integration lernender TestprozessTest set prediction, and then in accordance with the majority of voting method to produce the final prediction results. The steps of bagging implementation are shown in Figure 3. (3) Integration of learning testing process

Unter der Annahme, dass die Rechenkomplexität des Basisklassifikators O(m) und dieAssuming that the computational complexity of the base classifier is O(m) and the

Rechenkomplexität des Samplings und der Abstimmung/Mittelung O(s) ist, beträgt dieThe computational complexity of sampling and voting/averaging is O(s).

Rechenkomplexität des Bagging etwa t(O(m)+O(s)), und O(s) ist im Allgemeinen klein, so dass t eine kleine Konstante ist, und somit kann man sehen, dass Bagging ein effizienteres integriertesComputational complexity of Bagging is about t(O(m)+O(s)), and O(s) is generally small, so t is a small constant, and thus one can see that Bagging is a more efficient integrated

Lernverfahren ist. Darüber hinaus basiert Bagging auf der Methode des Self-Samplings, und derlearning process is. In addition, bagging is based on the self-sampling method, and the

Vorteil des Self-Samplings spiegelt sich in Folgendem wider: Da jeder Basisklassifikator nur etwa 63,2 % der Stichproben in der anfänglichen Trainingsmenge verwendet, werden die anderen 36,8 % der Stichproben als Validierungsmenge für die Out-of-Package-Schiatzung derAdvantage of self-sampling is reflected in the following: Since each base classifier uses only about 63.2% of the samples in the initial training set, the other 36.8% of the samples are used as the validation set for the out-of-package estimation of the

Generalisierungsleistung verwendet.Generalization performance used.

Wenn der Basisklassifikator ein Entscheidungsbaum ist, können die Out-of-Package-If the base classifier is a decision tree, the out-of-package

Stichproben verwendet werden, um die Posterior-Wahrscheinlichkeit jedes Knotens imSampling is used to estimate the posterior probability of each node

Entscheidungsbaum zu schätzen und bei der Verarbeitung von Knoten mit nullDecision tree estimation and processing nodes with null

Trainingsstichproben zu helfen. Unter den klassischen Klassifizierungsalgorithmen ist KNN einTraining samples to help. Among the classic classification algorithms, KNN is one

Algorithmus mit geringerer Zeitkomplexität, der häufig beim integrierten Bagging-Lernen verwendet wird. Aufgrund der obigen Überlegungen werden in dieser Arbeit Decision-Stump undLower time complexity algorithm commonly used in integrated bagging learning. Based on the above considerations, Decision-Stump and

KNN als Basisklassifikatoren für den integrierten Lernalgorithmus gewählt.ANN chosen as the base classifiers for the integrated learning algorithm.

Bei der Überprüfung des ECFCM-Algorithmus wird zur Gewährleistung der Objektivität desWhen reviewing the ECFCM algorithm, to ensure the objectivity of the

Experiments die Methode der 10-fachen Kreuzvalidierung verwendet, d.h. die Daten desExperiment used the method of 10-fold cross-validation, i.e. the data of

Datensatzes werden nach dem Zufallsprinzip in 10 gleiche Teile aufgeteilt, von denen 9 alsData set will be randomly divided into 10 equal parts, 9 of which will be

Trainingsmenge und 1 als Testmenge verwendet werden, um die Experimente der Reihe nach durchzuführen, und der Durchschnitt der Ergebnisse der entsprechenden 10 Experimente wird a14/504988Training set and 1 as test set are used to conduct the experiments in order, and the average of the results of the corresponding 10 experiments becomes a14/504988

Endergebnis der 10-fachen Kreuzvalidierung verwendet. (4) Experimentelle Analyse 4.1 Experimenteller DatensatzFinal result of 10-fold cross validation used. (4) Experimental analysis 4.1 Experimental data set

Um die Effektivität des ECFCM-Algorithmus bei der Verarbeitung von Daten mit einer geringeren Ungleichgewichtsrate (Ungleichgewichtsrate unter 5) und einer größerenTo evaluate the effectiveness of the ECFCM algorithm in processing data with a lower imbalance rate (imbalance rate less than 5) and a larger

Ungleichgewichtsrate (Ungleichgewichtsrate über 5) zu testen, wurden vier Sätze vonTo test imbalance rate (imbalance rate above 5), four sets of

Ungleichgewichtsdatensätzen, UCI” und KEEL®, für die Matlab-Simulation ausgewählt (sieheDisequilibrium data sets, “UCI” and KEEL®, were selected for the Matlab simulation (see

Tabelle 1);Table 1);

Tabelle 1: 4 unausgewogene Datensätze 2000Table 1: 4 unbalanced data sets 2000

Datensatz Quelle pes Aubaeeene LateData set source pes Aubaeeene Late

Spambase UCI 4 601 57 IntogerKral 1.54 lonosphere LN 351 34 Integer/Real 1,786Spambase UCI 4 601 57 IntogerKral 1.54 ionosphere LN 351 34 Integer/Real 1.786

Segment? KEEL 2308 19 Real 5.02Segments? KEEL 2308 19 Reals 5.02

Hass? KEEL 214 $ Real 11,58 4.2 Experimenteller BewertungsindexHate? KEEL $214 Real 11.58 4.2 Experimental Valuation Index

Die Konvention in der unausgewogenen Datensatz Minderheitsklasse Proben als P,The convention in the unbalanced dataset minority class samples as P,

Mehrheitsklasse Proben als N, konstruieren die Konfusion Matrix wie in Tabelle 2 dargestellt:Majority class samples as N, construct the confusion matrix as shown in Table 2:

Tabelle 2: Binäre KonfusionsmatrixTable 2: Binary confusion matrix

Positive Kategorie TP FNPositive category TP FN

Umgekehrte Kategorie Fp TNReverse category Fp TN

TN bezieht sich auf die ursprüngliche Mehrheitsklasse, und die Vorhersage ist immer noch die Mehrheitsklasse. Auf der Grundlage der Konfusionsmatrix werden eine Reihe vonTN refers to the original majority class, and the prediction is still the majority class. Based on the confusion matrix, a number of

BewertungsmaBstäben wie Gesamtgenauigkeit (Acc), Korrektheitsrate (TPR),Evaluation criteria such as overall accuracy (Acc), correctness rate (TPR),

Wiedererkennungswert (Recall), Genauigkeit der Nebenklasse (MIA), Präzision, F-Maß, AUC usw. definiert;Recall, MIA, Precision, F-Measure, AUC, etc. defined;

Die Gesamtgenauigkeit des Klassifikators wird wie in Gleichung (1) dargestellt berechnet:The overall accuracy of the classifier is calculated as shown in equation (1):

TP+IN £8 Lié +. SOU EN (1)TP+IN £8 Lié +. SOU EN (1)

Die Uberpriifungsrate des Klassifikators, auch bekannt als Unterklassengenauigkeit oder positive Genauigkeit, wird wie in Gleichung (2) dargestellt berechnet:The verification rate of the classifier, also known as subclass accuracy or positive accuracy, is calculated as shown in equation (2):

J LU504988J LU504988

TPR = Recall = Mid = 7TPR = Recall = Mid = 7

TEETEA

Die Auffindungsrate des Klassifikators, die auch die Auffindungsrate der kleinen Klasse vonThe discovery rate of the classifier, which is also the discovery rate of the small class of

Stichproben ist, wird wie in Gleichung (3) dargestellt berechnet:Sampling is calculated as shown in equation (3):

Precision = AEPrecision = AE

FEL FR (3)FEL FR (3)

Das F-Maß ist ein Bewertungskriterium, das auf die Klassifizierung von unausgewogenenThe F-measure is an evaluation criterion aimed at classifying unbalanced

Datensätzen ausgerichtet ist, wie in Gleichung (4) dargestellt: _ {1+ & Vo Recall x Precision & x Recall + Precision (4) b ist der Koeffizient, der die Präzision und den Wiedererkennungswert reguliert und normalerweise den Wert 1 annimmt, d.h. F1, und der Wert von F1 wird für die Bewertung der unausgewogenen Klassifizierungsleistung verwendet;datasets, as shown in equation (4): _ {1+ & Vo Recall x Precision & x Recall + Precision (4) b is the coefficient that regulates precision and recall and usually takes the value 1, i.e. F1 , and the value of F1 is used for evaluating the unbalanced classification performance;

Die ROC-Kurve ist ein zweidimensionales Diagramm mit der Falsch-Positiv-Rate (FP) als x-The ROC curve is a two-dimensional graph with the false positive rate (FP) as x-

Achse und der Wahr-Rate (TP) als y-Achse, und die Fläche unter der ROC-Kurve wird durch AUC dargestellt, die häufig zur Bewertung der Leistung des Klassifizierers verwendet wird, weshalb in dieser Arbeit der AUC-Wert als einer der Indikatoren für die Bewertung der Klassifizierer verwendet wird; 4.3 Experimentelle Plattformaxis and the true rate (TP) as the y-axis, and the area under the ROC curve is represented by AUC, which is often used to evaluate the performance of the classifier, so in this work the AUC value as one of the indicators used for evaluating the classifiers; 4.3 Experimental platform

Die experimentelle Umgebung ist ein 64-bit Mac OS Sierra Betriebssystem, 8GB RAM,The experimental environment is a 64-bit Mac OS Sierra operating system, 8GB RAM,

IntelCorei5 Prozessor, mit MatlabR2017a für Simulationsexperimente, Datenvorverarbeitung mitIntel Corei5 processor, with MatlabR2017a for simulation experiments, data preprocessing with

ClassificationLearner Anwendungspaket. 4.4 ErgebnisanalyseClassificationLearner application package. 4.4 Results analysis

Durch Simulationsexperimente wird die Klassifizierungsleistung des Decision-Stump-Through simulation experiments, the classification performance of the decision stump

Algorithmus, des KNN-Algorithmus, des Bagging-Algorithmus auf der Basis von Decision-Stump und des Bagging-Algorithmus auf der Basis von KNN verglichen. Die ersten beiden Algorithmen gehören zu den traditionellen Klassifizierungsalgorithmen, die beiden letzteren zu den integriertenAlgorithm, the KNN algorithm, the Bagging algorithm based on Decision-Stump and the Bagging algorithm based on KNN were compared. The first two algorithms belong to the traditional classification algorithms, the latter two to the integrated ones

Klassifizierungsalgorithmen auf der Grundlage von Basisklassifikatoren. Die experimentellenClassification algorithms based on base classifiers. The experimental ones

Ergebnisse sind in den Tabellen 3 bis 6 dargestellt. Die schwarzen Zahlen in der Tabelle zeigen die experimentellen Ergebnisse mit dem besten Leistungsindex an;Results are shown in Tables 3 to 6. The black numbers in the table indicate the experimental results with the best performance index;

Tabelle 3 Vergleich der Leistungsindizes der Experimente mit dem Datensatz SpambaseTable 3 Comparison of the performance indices of the experiments with the Spambase dataset

TTSTTS

LT NELT NE

Tecision-Brenp GT GER OXFTecision-Brenp GT GER OXF

KENN AN {13} GSKENN AN {13} GS

Unausgewogel posing (Devision-Stanp) 095 099 0.90Unbalanced posing (Devision-Stanp) 095 099 0.90

Bagging (ANN) {SI {EST eg _Bagging (ANN) {SI {EST eg _

Dogisicn-Stumg 180 108 ERDogisicn-Stumg 180 108 ER

Ausgewogen KANN 9,54 fd {1.534Balanced CAN 9.54 fd {1,534

ECPOM Bagging (Deckslon-Stump} 180 1880 amECPOM Bagging (Deckslon-Stump} 180 1880 am

Haggine {RAS} $.92 8,98 3h92Haggine {RAS} $.92 8.98 3h92

Tabelle 4 Vergleich der einzelnen Leistungskennzahlen für Experimente mit dem DatensatzTable 4 Comparison of individual performance metrics for experiments on the data set

Ionosphäre ee ess ss Oï a esIonosphere ee ess ss Oï a es

Decision-Sremp Es BH HASHDecision-Sremp It BH HASH

KKK 087 883 05KKK 087 883 05

Lnausgewogen Bagginp {Dection-Siuem 8,03 4.58 BRLnbalanced Bagginp {Dection-Siuem 8.03 4.58 BR

Hagging (KNN} 282 196 83Hagging (KNN} 282 196 83

Decision Stamp 4.94 &.95 HEDecision Stamp 4.94 &.95 HE

Ausgewogen KERN ès 8,98 8,98Balanced CORE is 8.98 8.98

ECTUM Bagging {Decipen-Rlumpr 0 1.80 HAECTUM Bagging {Decipen-Rlumpr 0 1.80 HA

Hagging (KNN} 4.93 8,95 8233Hagging (KNN} 4.93 8.95 8233

Tabelle 5 Vergleich der einzelnen Leistungskennzahlen für Experimente mit dem DatensatzTable 5 Comparison of individual performance metrics for experiments on the data set

Segment0 co Ii NN oo ,.,Segment0 co Ii NN oo ,.,

Devise Bin de (98 88Motto Bin de (98 88

Unaus Zewo ge N BN R 2 . 83 #83 3 BEUnaus Zewo ge N BN R 2 . 83 #83 3 BE

Bagging (Deciston-Sump 096 LE gas ee Bag RNIN BIS 096Bagging (Deciston-Sump 096 LE gas ee Bag RNIN TO 096

Kissen Siena 1 Lie ssPillow Siena 1 Lie ss

Ausgewogen KNN #25 1,69 4.96Balanced KNN #25 1.69 4.96

BOFCM Bazgme (Devisson-Shangy 1.98 its 138BOFCM Bazgme (Devisson-Shangy 1.98 its 138

DB (RN A BRS OREDB (RN A BRS ORE

Tabelle 6 Vergleich der einzelnen Leistungskennzahlen für Experimente mit dem DatensatzTable 6 Comparison of individual performance metrics for experiments on the dataset

Glass2Glass2

Deeps Alsi eee a ADeeps Alsi eee a A

DegisionNtuny Use 867 ded ; KNN to 20862 887DegisionNtuny Use 867 ded ; KNN to 20862 887

UBAUSESWOBER ping (Docision-Stumpi 0.93 088 0.86UBAUSESWOBER ping (Docision-Stumpi 0.93 088 0.86

Bagging (KENNY SOS ARBagging (KENNY SOS AR

Peciston-Stenyy 834 882 anPeciston-Stenyy 834 882

Ausgewogen RMN UNE SE | A 86Balanced RMN UNE SE | A86

ECFCM Hagging (Decision-Stump} 497 1080 888ECFCM Hagging (Decision Stump} 497 1080 888

Bagging (KNK) gas 8863 055Bagging (KNK) gas 8863 055

Anhand von Tabelle 3 bis Tabelle 6 wird die durchschnittliche Verbesserung des Acc-, AUC- und F1-Wertes des ECFCM-Algorithmus fiir ausgeglichene bzw. unausgewogene Daten berechnet, und die Veränderung jedes Indexes wird in Prozent ausgedrückt (+ steht fiir eine Verbesserung, - für eine Verschlechterung), wie in Tabelle 7 dargestellt;From Table 3 to Table 6, the average improvement in Acc, AUC and F1 value of the ECFCM algorithm is calculated for balanced and unbalanced data, respectively, and the change in each index is expressed as a percentage (+ represents improvement, - for deterioration), as shown in Table 7;

Tabelle 7: Verbesserung der Klassifizierungsleistung des ECFCM-Algorithmus (%)Table 7: Improvement in classification performance of ECFCM algorithm (%)

Spanbasg +8,75 +453 +7,84 lonosphere +249 +463 +182Spanbasg +8.75 +453 +7.84 lonosphere +249 +463 +182

Segment £3.36 +0,52 —3,58Segment £3.36 +0.52 -3.58

Glass? — 84 +1384 +8 0%Glass? — 84 +1384 +8 0%

Avg 47 +3 8% +2,33Avg 47 +3 8% +2.33

Bei Verwendung des ECFCM-Algorithmus für die Klassifizierung verbesserten sich die Acc-,When using the ECFCM algorithm for classification, the Acc,

AUC- und F1-Werte des Algorithmus im Durchschnitt um bis zu 5,75 % (Spambase), 13,84 % (Glass2) und 7,54 % (Spambase). Bei den Datensätzen SegmentO und Glass2 sanken die Acc-Algorithm AUC and F1 values on average up to 5.75% (Spambase), 13.84% (Glass2) and 7.54% (Spambase). For the SegmentO and Glass2 data sets, the Acc-

Werte des Algorithmus um 0,26 % bzw. 9,84 %. Die Analyse zeigt, dass dies auf die unausgewogene Rate der beiden Datensätze von 6,02 bzw. 11,59 zurückzuführen ist. Je größer die unausgewogene Rate des Datensatzes ist, desto mehr gültige Stichproben gehen beim Under-Values of the algorithm by 0.26% and 9.84%, respectively. The analysis shows that this is due to the imbalanced rate of the two datasets, 6.02 and 11.59, respectively. The larger the imbalance rate of the data set, the more valid samples are lost in the under-

Sampling in den meisten Klassen verloren, d. h. der Verlust von Datenstichproben am Rande derSampling lost in most classes, i.e. H. the loss of data samples at the edge of the

Klassifizierung wirkt sich auf das Klassifizierungsergebnis aus, was zu einer Verringerung derClassification affects the classification result, resulting in a reduction

Klassifizierungsgenauigkeit führt;classification accuracy leads;

Im Vergleich zu den vier Sätzen mit unausgewogenen Daten verbessert der ECFCM-Compared to the four sets of unbalanced data, the ECFCM improves

Algorithmus die AUC- und F1-Werte um durchschnittlich 5,88 % und 2,73 % bei den vier Sätzen mit ausgewogenen Daten. Auf dem ausgewogenen Datensatz schneidet der Bagging(Decision-algorithm increased the AUC and F1 values by an average of 5.88% and 2.73% for the four sets of balanced data. On the balanced data set, the Bagging(Decision-

Stump)-Algorithmus bei den drei Metriken besser ab als die anderen drei Algorithmen. Es ist zu erkennen, dass der Bagging(Decision-Stump)-Algorithmus besser für die Klassifizierung vonStump) algorithm performed better on the three metrics than the other three algorithms. It can be seen that the Bagging (Decision-Stump) algorithm is better for the classification of

Minderheitenproben geeignet ist. Gleichzeitig sind die F1-Werte der Algorithmen Decision-Stump und Bagging(Decision-Stump) höher als ihre jeweiligen F1-Werte im unausgewogenen Datensatz, was darauf hindeutet, dass der ECFCM-Algorithmus in der Lage ist, die Vollständigkeit derMinority samples are suitable. At the same time, the F1 values of the Decision-Stump and Bagging(Decision-Stump) algorithms are higher than their respective F1 values in the unbalanced data set, indicating that the ECFCM algorithm is able to ensure the completeness of the

Prüfung und die Genauigkeit der Prüfung von Minderheitenproben zu verbessern, d. h. er ist effektiver bei der Klassifizierung von Minderheitenproben; LU504988Testing and improving the accuracy of testing of minority samples, i.e. H. it is more effective in classifying minority samples; LU504988

Zusammenfassend lässt sich sagen, dass der ECFCM-Algorithmus die umfassende Leistung der Klassifizierung von unausgewogenen Daten effektiv verbessern kann, insbesondere wenn dieIn summary, the ECFCM algorithm can effectively improve the comprehensive performance of classification of imbalanced data, especially when the

Unausgewogenheitsrate der unausgewogenen Daten weniger als 5 beträgt, und dass er dieImbalance rate of the imbalanced data is less than 5 and that it is the

Klassifizierungsleistung einiger weniger Klassen von Proben effektiv verbessert, was dieClassification performance of a few classes of samples effectively improved, which makes the

Durchführbarkeit und Wirksamkeit des ECFCM-Algorithmus bei der Klassifizierung von unausgewogenen Daten beweist.Proves feasibility and effectiveness of the ECFCM algorithm in classifying imbalanced data.

Obwohl Ausführungsformen der vorliegenden Erfindung gezeigt und beschrieben wurden, ist es für den Fachmann selbstverständlich, dass eine Vielzahl von Änderungen, Modifikationen,Although embodiments of the present invention have been shown and described, it will be apparent to those skilled in the art that various changes, modifications,

Ersetzungen und Variationen an diesen Ausführungsformen vorgenommen werden können, ohne von den Grundsätzen und dem Geist der vorliegenden Erfindung abzuweichen, und der Umfang der vorliegenden Erfindung wird durch die beigefiigten Anspriiche und deren Aquivalente begrenzt.Substitutions and variations may be made to these embodiments without departing from the principles and spirit of the present invention, and the scope of the present invention is limited by the appended claims and their equivalents.

Claims (6)

Ansprüche LU504988Claims LU504988 1. Ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering, dadurch gekennzeichnet, dass: das Verfahren die folgenden Schritte umfasst: Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering; Training des Integrationslernens; Testen des Integrationslernens; Experimentelle Analyse.1. A method for classifying integrated imbalance data with subsampling based on fuzzy C-means clustering, characterized in that: the method comprises the steps of: subsampling based on fuzzy C-means clustering; training integration learning; testing integration learning; experimental analysis. 2. Ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering nach Anspruch 1, dadurch gekennzeichnet, dass das auf Fuzzy-C-Mittelwert-Clustering basierende Undersampling die folgenden spezifischen Operationen umfasst: Unterabtastung der Proben der Mehrheitsklasse durch Clustering unter Verwendung des FCM-Algorithmus,Einstellen des Wertes von k auf die Anzahl der Proben der Minderheitsklasse,k=n1,k Proben, die aus Clusterzentren anstelle der ursprünglichen Datenproben der Mehrheitsklasse bestehen,und Erhalten eines ausgeglichenen Datensatzes, der aus einer ähnlichen Anzahl von Datenproben der beiden Klassen besteht.2. A method for classifying integrated imbalance data with undersampling based on fuzzy C-means clustering according to claim 1, characterized in that the undersampling based on fuzzy C-means clustering comprises the following specific operations: Subsampling the samples the majority class by clustering using the FCM algorithm, setting the value of k to the number of minority class samples, k=n1, k samples consisting of cluster centers instead of the original majority class data samples, and obtaining a balanced data set consisting of a similar number of data samples from the two classes. 3. Ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering nach Anspruch 2, dadurch gekennzeichnet, dass die Unterprobenahme auf der Grundlage von Fuzzy-C-Mittelwert-Clustering ferner die folgenden spezifischen Operationen umfasst: Trainieren eines Klassifikators auf dem erhaltenen ausgeglichenen Datensatz und Durchführen mehrerer Klassifikationsexperimente; Aufteilen des Satzes von Datenproben in einen Satz von Minderheitsklassenproben und einen Satz von Mehrheitsklassenproben; Clustern der Mehrheitsklassenproben und Bilden eines ausgeglichenen Datensatzes mit den erhaltenen Clusterschwerpunkten und allen Minderheitsklassenproben; Nach der Unterabtastung, um sicherzustellen, dass die Anzahl der Proben der Mehrheitsklasse mit der Anzahl der Proben der Minderheitsklasse ausgeglichen ist, wird die Anzahl der Cluster der Proben der Mehrheitsklasse auf die Anzahl der Proben der Minderheitsklasse eingestellt.3. A method for classifying integrated imbalance data with subsampling based on fuzzy C-means clustering according to claim 2, characterized in that subsampling based on fuzzy C-means clustering further comprises the following specific operations: training a classifier on the obtained balanced data set and conducting multiple classification experiments; dividing the set of data samples into a set of minority class samples and a set of majority class samples; clustering the majority class samples and forming a balanced data set with the obtained cluster centroids and all minority class samples; After subsampling, to ensure that the number of majority class samples is balanced with the number of minority class samples, the number of clusters of the majority class samples is set to the number of minority class samples. 4. Ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering nach Anspruch 1, dadurch gekennzeichnet, dass die spezifische Operation des integrierten Lerntrainingsverfahrens umfasst: Es besteht keine starke Abhängigkeit zwischen Basisklassifikatoren, das Klassifikationsmodell wird parallel erzeugt, und es besteht eine starke Abhängigkeit zwischen Basisklassifikatoren, das Klassifikationsmodell muss seriell erzeugt werden, die parallele Erzeugung des Klassifikationsmodells wird typischerweise durch den Bagging-Algorithmus dargestellt, und die serielle Erzeugung des Klassifikationsmodells wird typischerweise durch den Boosting-Algorithmus dargestellt.4. A method for classifying undersampled integrated imbalance data based on fuzzy C-means clustering according to claim 1, characterized in that the specific operation of the integrated learning training method includes: There is no strong dependency between base classifiers, the classification model becomes parallel generated, and there is a strong dependency between base classifiers, the classification model needs to be generated serially, the parallel generation of the classification model is typically represented by the bagging algorithm, and the serial generation of the classification model is typically represented by the boosting algorithm. 5. Ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering nach Anspruch 1, dadurch gekennzeichnet, dass die spezifische Operation des integrierten Lerntests Folgendes umfasst: Auswählen von Decision-Stump mit KNN als Basisklassifikator in dem integrierten Lernalgorithmus.5. A method for classifying undersampled integrated imbalance data based on fuzzy C-means clustering according to claim 1, characterized in that the specific operation of the integrated learning test comprises: selecting decision stump with KNN as a base classifier in which integrated learning algorithm. 6. Ein Verfahren zur Klassifizierung von integrierten Ungleichgewichtsdaten mit6. A method for classifying integrated disequilibrium data with Unterabtastung auf der Grundlage von Fuzzy-C-Mittelwert-Clustering nach Anspruch 1, dadurd{/504988 gekennzeichnet, dass der spezifische Vorgang der experimentellen Analyse Folgendes umfasst:Subsampling based on fuzzy C-means clustering according to claim 1, characterized in that the specific operation of the experimental analysis comprises: Auswählen einer Vielzahl von unausgewogenen Datensätzen für die Matlab-Simulation;Selecting a variety of unbalanced data sets for Matlab simulation; Schlussfolgern, dass die Stichproben der Minderheitenklasse in dem unausgewogenenConclude that the minority class samples in the unbalanced Datensatz P und die Stichproben der Mehrheitsklasse N sind;Dataset P and the majority class samples are N; Entsprechend der Konfusionsmatrix wird eine Reihe von Bewertungsindizes für die Gesamtgenauigkeit, die Korrektheitsrate, die Rate für die Überprüfung aller, die Genauigkeit der Minderheitenklasse, die Rate für die Überprüfung der Richtigkeit, das F-Maß und AUC definiert, und die Gesamtgenauigkeit des Klassifizierers wird wie in Gleichung (1) gezeigt berechnet: TFA EN doo œ EEE DPA IN + FP FN (1)According to the confusion matrix, a set of evaluation indices for overall accuracy, correctness rate, check-all rate, minority class accuracy, correctness-check rate, F-measure and AUC are defined, and the overall accuracy of the classifier is as shown in equation (1) calculated: TFA EN doo – EEE DPA IN + FP FN (1) Die Uberpriifungsrate des Klassifikators, auch bekannt als Unterklassengenauigkeit oder positive Genauigkeit, wird wie in Gleichung (2) dargestellt berechnet:The verification rate of the classifier, also known as subclass accuracy or positive accuracy, is calculated as shown in equation (2): TPR = Recall m Mid = prTPR = Recall m Mid = pr TED Die Auffindungsrate des Klassifikators, die auch die Auffindungsrate der kleinen Klasse von Stichproben ist, wird wie in Gleichung (3) dargestellt berechnet: "FE? Precision = EL PPAFP (3) Das F-Maß ist ein Bewertungskriterium, das auf die Klassifizierung von unausgewogenen Datensätzen ausgerichtet ist, wie in Gleichung (4) dargestellt: N {1+ x Recall « Precision bw Recall + Precision (4) b ist der Koeffizient, der die Präzision und den Wiedererkennungswert reguliert und normalerweise den Wert 1 annimmt, d.h.TED The discovery rate of the classifier, which is also the discovery rate of the small class of samples, is calculated as shown in equation (3): "FE? Precision = EL PPAFP (3) The F-measure is an evaluation criterion aimed at the classification of unbalanced data sets, as shown in equation (4): N {1+ x Recall « Precision bw Recall + Precision (4) b is the coefficient that regulates precision and recall and usually takes the value 1, i.e. F1, und der Wert von F1 wird für die Bewertung der unausgewogenen Klassifizierungsleistung verwendet.F1, and the value of F1 is used for evaluating the imbalanced classification performance.
LU504988A 2023-08-23 2023-08-23 A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering LU504988B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
LU504988A LU504988B1 (en) 2023-08-23 2023-08-23 A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
LU504988A LU504988B1 (en) 2023-08-23 2023-08-23 A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering

Publications (1)

Publication Number Publication Date
LU504988B1 true LU504988B1 (en) 2024-02-26

Family

ID=90107143

Family Applications (1)

Application Number Title Priority Date Filing Date
LU504988A LU504988B1 (en) 2023-08-23 2023-08-23 A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering

Country Status (1)

Country Link
LU (1) LU504988B1 (en)

Similar Documents

Publication Publication Date Title
DE60208223T2 (en) ARRANGEMENT AND METHOD FOR FACE DETECTION USING PARTS OF THE LEARNED MODEL
DE69324207T2 (en) Image grouping device
DE102019209565A1 (en) Method and device for checking the robustness of an artificial neural network
DE69424196T2 (en) Automatic character recognition using static and dynamic parameters
DE112022000106T5 (en) Transmission fault diagnosis and signal acquisition method, apparatus and electronic device
DE112017007492T5 (en) System and method for capturing objects in a digital image and system and method for re-evaluating object capturing
DE102006010607A1 (en) Object localization method, involves calculating probability values for limitation boxes in input image based on probability that object is arranged in these locations, and selecting box with highest probability as location of object
WO2020260016A1 (en) Method and apparatus for training a machine learning system
DE202022102752U1 (en) A novel system of stacked parallel convolutional layers with an attentional module for classifying images of diabetic foot ulcers and normal skin
LU504988B1 (en) A method for classifying undersampled integrated imbalance data based on fuzzy c-means clustering
EP0749613B1 (en) Knowledge-based fuzzy selection for recognition system having several recognition units
DE10250100A1 (en) Microscope system and method for the analysis and evaluation of multiple staining of a microscopic object
DE19636074A1 (en) Adaptive image processing system for object classification
DE102020208474B4 (en) Measuring the sensitivity of classifiers based on interacting disturbances
DE102021207613A1 (en) Process for quality assurance of a system
DE102017217099A1 (en) Method for investigating a functional behavior of a technical system and evaluation unit
DE102019204118A1 (en) Method for transferring a feature of a first image to a second image
WO2004017252A1 (en) Method for evaluating the signals of an electronic image sensor during pattern recognition of image contents in a test piece
DE102021204040A1 (en) Method, device and computer program for creating training data in the vehicle
DE102005028252A1 (en) Method for the computer-aided processing of digital data
WO2020187394A1 (en) Method for training an autoencoder and for classifying data, and autoencoder and computer program for this purpose
DE60309191T2 (en) SYSTEM FOR FUZZY ASSOCIATES DESCRIPTION OF MULTIMEDIA OBJECTS
DE102016113310A1 (en) A method for evaluating statements of a plurality of sources about a plurality of facts
DE102023106554A1 (en) Method for fault analysis of a component and electronic computing device
DE202022106132U1 (en) A deep learning-based Parkinson's detection system

Legal Events

Date Code Title Description
FG Patent granted

Effective date: 20240226