LU601503B1 - Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET - Google Patents

Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET

Info

Publication number
LU601503B1
LU601503B1 LU601503A LU601503A LU601503B1 LU 601503 B1 LU601503 B1 LU 601503B1 LU 601503 A LU601503 A LU 601503A LU 601503 A LU601503 A LU 601503A LU 601503 B1 LU601503 B1 LU 601503B1
Authority
LU
Luxembourg
Prior art keywords
convolution
feature
equation
ldka
net
Prior art date
Application number
LU601503A
Other languages
English (en)
Inventor
Jinlu Hu
Meicen Liu
Yuan Lei
Chenyu Wang
Xiaobei Zhang
Wei Shen
Yonghua Du
Rui Pan
Chao Gao
Original Assignee
Huaneng New Energy Co Ltd Shaanxi Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaneng New Energy Co Ltd Shaanxi Branch filed Critical Huaneng New Energy Co Ltd Shaanxi Branch
Application granted granted Critical
Publication of LU601503B1 publication Critical patent/LU601503B1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

Die vorliegende Erfindung offenbart ein Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET. Erstens wird ein Faltungsmodul für ein weites Sichtfeld vorgeschlagen, das einen größeren Faltungskern verwendet, um die Wahrnehmungsfähigkeit des Netzwerks und die Verallgemeinerungsfähigkeit zu verbessern und sich besser an komplexe Übertragungsleitungsszenarien anzupassen. Zweitens wird ein volldimensionales dynamisches Faltungsnetzwerk zur Merkmalsfusion vorgeschlagen. Schließlich wird der Mechanismus der erwartungsmaximierenden dynamischen Faltungsaufmerksamkeit verwendet, um sich auf die wichtigen Informationen in den Eingabedaten zu konzentrieren und diese zu nutzen, was dem Modell hilft, seine Aufmerksamkeit besser auf die wichtigen Ziel- oder Szenenteile zu lenken und eine verallgemeinerte Merkmalsdarstellung zu erlernen, was die Generalisierungsfähigkeit und Robustheit des Modells verbessert und die Position des Ziels genauer lokalisiert.

Description

Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf dé&J601503
Grundlage eines Faltungsnetzwerks LDKA-NET
Technischer Bereich
Die vorliegende Erfindung gehort zum Gebiet der elektrischen Energietechnik und bezieht sich insbesondere auf das Verfahren zur Identifizierung und Erkennung von eisbedeckten
Isolatoren in Ubertragungsleitungen.
Technologie im Hintergrund
Angesichts der steigenden Nachfrage nach und Abhängigkeit von Elektrizität in der modernen Gesellschaft ist der sichere und stabile Betrieb von Ubertragungsleitungen als wichtiger
Kanal für die Stromübertragung besonders wichtig. Eine große Anzahl von Isolatoren muss jedoch zwangsläufig durch hochgelegene, stark vereiste Gebiete mit komplexen Umgebungen verlaufen und ist dem Feld das ganze Jahr über ausgesetzt. In Verbindung mit der allmählichen
Verschlechterung der klimatischen Bedingungen in den letzten Jahren treten von Zeit zu Zeit Dunst,
Bewölkung und Regen, Frost und Schnee auf, so dass sich die Isolatoren im Wetter befinden, die
Geografie der Umgebung wird immer komplexer, und es ist sehr einfach, die Isolatoren in den eisbedeckten, defekten, Uberschligen usw. auftreten zu lassen, was ein ernsthaftes
Sicherheitsrisiko fiir den Betrieb des Stromnetzes darstellt. Gleichzeitig verursacht dies auch erhebliche Verluste für die Sozialwirtschaft.
Um Probleme mit Isolatoren rechtzeitig zu erkennen und zu lösen und die Sicherheit und
Zuverlässigkeit von Übertragungsleitungen zu verbessern, ist die Technologie zur Überwachung von Isolatoren zu einem der Schwerpunkte in der Energiebranche geworden. Durch die
Echtzeitüberwachung von Isolatorstatus und -leistung können Isolatoranomalien rechtzeitig erkannt und entsprechende Reparatur- und Austauschmaßnahmen ergriffen werden, um den sicheren Betrieb von Übertragungsleitungen zu gewährleisten.
Zu den derzeitigen Methoden zur Erkennung von Isolatordefekten gehören Ultraschall,
Infrarot-Wärmebildtechnik, Vibration, Teilentladung, Sichtprüfung und andere technische Mittel.
Ultraschall erfordert professionelle Ausrüstung und Bediener, hohe Kosten; Infrarot-Wärmebild-
Erkennung durch Umweltfaktoren, unempfindlich gegen bestimmte Defekte, kann nicht direkt erkennen, der Isolator internen Probleme; Vibration Erkennung durch die externe Interferenz, begrenzte Genauigkeit; Teilentladung Erkennung Ausrüstung ist komplex, erfordert professionelle
Bedienung, hohe Kosten. Die visuelle Inspektion hingegen ist einfach und intuitiv zu bedienen und kann offensichtliche Defekte auf der Isolatoroberfläche schnell erkennen.
Die derzeitigen Methoden zur Erkennung visueller Isolatordefekte lassen sich in zwei
Haupttypen unterteilen: auf maschinellem Lernen basierende Bildverarbeitungsalgorithmen und auf Deep Learning basierende Algorithmen. Bildverarbeitungsalgorithmen mit maschinellem
Lernen umfassen in der Regel die Extraktion von Merkmalen und die Klassifizierung von Bildern.
Zunächst werden Bilddaten von der Isolatoroberfläche erfasst, und dann werden die
Merkmalsinformationen im Bild mit Techniken wie Kantenerkennung, Farbanalyse und
Formabgleich extrahiert. Schließlich werden die extrahierten Merkmale mit Hilfe von Methoden wie Support Vector Machines und Random Forests klassifiziert und identifiziert, um festzustellen, ob Defekte an den Isolatoren vorhanden sind.
Basierend auf dem Deep-Learning-Algorithmus werden tiefe neuronale Netze verwendet, um die Originalbilder durchgängig zu lernen und zu verarbeiten. Durch den Aufbau von Modellen wie
Deep Convolutional Neural Network (CNN) und Recurrent Neural Network (RNN) werden
Merkmale und Muster direkt aus den Bilddaten erlernt, um eine automatische Erkennung und
Identifizierung von Isolatordefekten zu erreichen. LU601503
Die bestehenden Algorithmen berücksichtigen jedoch nicht das Problem der unzureichenden
Erfassung lokaler Details aufgrund des kleinen sensorischen Sichtfelds, was zur Vernachlässigung der globalen Kontextinformationen führen kann. Zweitens ist die Tiefe des bestehenden
Netzwerkmodells noch immer gering, so dass Bilder mit besonders komplexen
Umgebungshintergründen oder verdeckten Zielen nur begrenzt extrahiert werden können.
Aufgrund des komplexen Hintergrunds von Freileitungen und der Einzelbetrachtung an verschneiten Tagen stören die Hintergrundinformationen die Defekterkennung, während einige
Isolatoren in geringem Umfang gebrochen sind und der gebrochene Teil weniger Pixel im
Originalbild einnimmt.
Inhalt der Erfindung
Die vorliegende Erfindung schlägt ein Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET vor, um das
Problem der geringen Genauigkeit der Zielerkennung in komplexen Umgebungen zu lösen.
Die technische Lösung der vorliegenden Erfindung besteht darin, dass das Verfahren zur
Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines
Faltungsnetzwerks LDKA-NET in Übereinstimmung mit den folgenden Schritten implementiert wird:
Schritt 1: Sammeln von Bilddaten von defekten, eisbedeckten Isolatoren auf einer
Ubertragungsleitung, Kennzeichnung und Aufteilung des Datensatzes in einen Trainingssatz, einen Validierungssatz und einen Testsatz;
Schritt 2: Aufbau eines LDKA-NET-Netzwerkmodells mit Faltungsnetzwerken;
Schritt 3: Eingabe der Bilder des Trainingssatzes in das LDKA-NET-Netzwerkmodell des
Faltungsnetzwerks zum Training und Erhalt eines optimierten LDKA-NET-Netzwerkmodells durch Training;
Schritt 4: Eingabe der Bilder im Testsatz in das optimierte LDKA-NET-Netzwerkmodell zur
Erkennung und Erhalt einer Karte der Defekterkennungsergebnisse des eisbedeckten Isolators.
Der besagte Schritt 1 wird insbesondere in Übereinstimmung mit den folgenden Schritten durchgeführt:
Schritt 1.1: Aufnehmen einer großen Anzahl von Inspektionsvideos, einschließlich Bildern von mit Eis bedeckten Isolatoren von Übertragungsleitungen in verschiedenen komplexen
Hintergründen, sowie Bildern, die Fern-, Nah- und Großaufnahmen umfassen, durch eine von der
Drohne getragene Hochauflösungskamera, und Beibehalten einer konsistenten Anzahl von Bildern von jeder Art von mit Eis bedeckten Isolatoren;
Schritt 1.2: Drehen, Spiegeln, Skalieren und beliebiges Beschneiden der in Schritt 1.1 erhaltenen Bilder der eisbedeckten Isolatoren, wodurch die erweiterten Bilder der eisbedeckten
Isolatoren erhalten werden;
Schritt 1.3: Nehmen Sie die Summe des in Schritt 1.1 erhaltenen Bildes des eisbedeckten
Isolators und des in Schritt 1.2 erhaltenen erweiterten Bildes des eisbedeckten Isolators als eine
Bibliothek von Beispielbildern des eisbedeckten Isolators und erstellen Sie eine entsprechende
Beschriftungsdatei für jedes Beispielbild in der Bibliothek von Beispielbildern des eisbedeckten
Isolators. Die Beschriftungsdatei entspricht dem xml-Beschriftungsdateistandard des Pascal VOC-
Formats, und die xml-Beschriftungsdatei enthält die Bild-ID, den Bildpfad, den Bildnamen und die Pixelhöhe und -breite des Bildes, wobei die Pixelhöhe und -breite des Bildes durch die vier
Koordinaten eines rechteckigen Kastens dargestellt werden, die X_. , Ymin> Xmax> Ymax Sind,
wobei (Xmin> Ymin ) die Koordinaten der oberen linken Eckpunkte des rechteckigen Kastens und (Xmnax > Ymax ) die Koordinaten der unteren rechten Eckpunkte des rechteckigen Kastens sind;
Schritt 1.4: Aufteilung der in Schritt 1.3 erhaltenen Bildbibliothek von eisbedeckten
Isolatorproben in einen Trainingssatz, einen Validierungssatz und einen Testsatz im Verhältnis 81:1.
Der besagte Schritt 2 wird insbesondere in Ubereinstimmung mit den folgenden Schritten durchgeführt:
Schritt 2.1: Einrichtung eines Faltungsnetzwerks LDKA-NET-Netzwerkmodells, das vier
Teile umfasst: Bildvorverarbeitung, Backbone-Netzwerk (Backbone),
Merkmalsextraktionsnetzwerk (Neck) und Vorhersagenetzwerk (Head);
Schritt 2.2: die Struktur des Weitbereichs-Sichtfeld-Faltungs-Backbone-Netzwerks ist wie folgt:
Das Wide Field der View Convolutional Backbone Network besteht aus vier Hauptstufen, die jeweils eine Ausgangsschicht (stem), eine Stufenschicht (Stage) und eine
Ubergangsfaltungsschicht (Transition) enthalten; unter ihnen ist die tiefenweise Faltungsschicht eine tiefenseparierbare Faltung, die aus zwei Teilen besteht, nämlich der tiefenweisen (DW)
Faltung und der punktweisen (PW) Faltung; jeder Faltungskern der DW-Faltung wird nur für die entsprechende Merkmalskarte berechnet, was jedoch die Informationsinteraktion zwischen den
Merkmalspixeln der verschiedenen Schichten schwächen kann, was zu einem Genauigkeitsverlust führen kann; Die PW-Faltung ist eine 1x1-Faltung mit n-Kanal-Ausgang, die darauf abzielt, die fehlende Interaktion zwischen den Merkmalen bei der DW-Faltung zu kompensieren. Durch
Punkt-zu-Punkt-Multiplikations- und Additionsoperationen ist die PW-Faltung in der Lage, die
Informationen verschiedener Merkmalskarten zu kombinieren, um die Interaktion zwischen den
Merkmalen zu verbessern;
Unter der Annahme, dass die Größe der Eingabe-Merkmalskarte D, xD, xC | die Größe des Faltungs-Kernels D, x D, xC und die Größe der Ausgabe-Merkmalskarte D, xD, XC ut ist, wird die Anzahl der Parameter der Standard-Faltungsschicht in der folgenden Gleichung dargestellt:
Ferandard — (D, X D, X C) ’ Cou Gleichung (1)
Dabei steht C für die Anzahl der Fingangsmerkmalskanäle, C, für die Anzahl der
Ausgangsmerkmalskanäle und die Anzahl der Faltungskerne;
Darüber hinaus ist die Tiefenfaltung in der tiefenseparierbaren Faltung für die Filterung,
Größe D), x D, x1 , C insgesamt, verantwortlich, die auf jeden Kanal des Eingangs wirkt, und die punktweise Faltung ist für die Transformation der Kanäle, Größe 1x1xC, Cut insgesamt, verantwortlich, die auf das Ausgangs-Feature-Mapping der Tiefenfaltung wirkt;
Die Anzahl der tiefenseparierbaren Faltungsparameter ist durch die folgende Gleichung gegeben.
Prepinwise =(D, x D, x1)xC+1x1xCxC =D, x D, xC+CxC,, Gleichung (2)
Das Verhältnis zwischen der Anzahl der Deep Convolutional-Parameter und der Anzahl der
Standard-Convolutional-Parameter beträgt:
Prepihwise D, x D, xC+CxC
Psrandard (D, x D, X C) ) Cu
SL Gleichung (3
Ca" D,xD, eichung (3)
Auf dieser Grundlage kann die Verwendung der tiefen-separierbaren Faltung das Problem der steigenden Anzahl von Parametern und FlieBkomma-Operationen aufgrund der Verwendung eines großen Faltungs-Kernels lösen. Die Stammschicht besteht aus einer 3 x 3-Faltung mit einer
Schrittgröße von 2, einer tiefen-separierbaren Faltung und einer DW-Faltung mit einer
Schrittgröße von 2, die für die Hoch- und Herunterskalierung des Eingangsbildes verwendet wird, wie in der folgenden Gleichung dargestellt: \ Coma 411 | 3a 33
W (h/4,w/4,c1) — D. 1 (Di = (Mae) ))| Gleichung (4)
Wie in Gl. gezeigt, wobei w die Merkmalsgewichtung ist und D das in der Tiefe trennbare
Volumen darstellt; unter der Annahme, dass die Eingangsdimensionen H und W sind, wobei H die
Bildhohe und W die Bildbreite ist, ist die Ausgangsmerkmalsdimension der Stammschicht
H/4xW/4xC1, wobei C1 die Anzahl der Kanäle nach der Hochskalierung ist;
Die Stufenschicht wird durch RepLK Block und ConvFFN gestapelt; RepLK Block enthält die Normalisierungsschicht, 1x1-Faltung und tiefenseparierbare Faltung sowie wichtige
Restverbindungen; ConvFFN verwendet 1x1-Faltung anstelle von vollständig verbundenen
Schichten und Restverbindungen zwischen den Schichten; die Ubergangsschicht verwendet hauptsächlich PW-Faltung und DW-Faltung mit einer Schrittgröße von 2 für das Downsampling von Bildern;
Darüber hinaus ermöglicht die Verwendung eines Backbone-Netzes mit großen Kernen ein größeres sensorisches Sichtfeld mit weniger Schichten und gleichzeitig eine höhere
Formabweichung, wie in der folgenden Gleichung dargestellt:
RF, = RE, xS,+(K,~1) Gleichung (5)
Die obige Gleichung ist die Formel fiir die Berechnung des sensorischen Feldes, wobei RF, die Größe des sensorischen Feldes der n-ten Schicht, RF,, die Größe des sensorischen Feldes der n-1-ten Schicht, S, die SchrittgroBBe der n-ten Schicht und X, die Größe des Faltungs-Kernels der n-ten Schicht ist;
Schritt 2.3: Volldimensionales dynamisches Faltungsmodul für die Merkmalsfusion Die
Netzstruktur ist wie folgt:
Die Implementierung der volldimensionalen dynamischen Faltung ist unten dargestellt:
n LU601503
Kod out = xy (a, © ag © a, © a, © W) Gleichung (7) i=l
In der obigen Gleichung sind «,,, a, , 2, und «, die Aufmerksamkeitskoeffizienten des
Faltungskerns im Raum, im Kanal, im Faltungsfilter bzw. im Faltungskern. Die vier Arten von
Aufmerksamkeitsgewichten ermöglichen Faltungsoperationen fiir alle räumlichen Positionen 5 verschiedener Eingaben, alle Eingangskanäle, alle Filter und alle Kerne und bieten
Leistungsgarantien fiir die Erfassung umfangreicher kontextueller Hinweise.
Die volldimensionale Merkmalsfusion (Optimised Dynamic Convolution Coarse-to-Fine,
ODC2F) läuft wie folgt ab:
Es ist notwendig, die Gewichte und Verzerrungen der Merkmalsfusion zu erlernen, wodurch eine große Anzahl zusätzlicher Parameter eingeführt wird, die das Risiko einer Uberanpassung mit sich bringen können, wie in der folgenden Formel angegeben: 1x1
FE, = F4 (M,+0F,) Gleichung (8) _ ll 3x3 3x3
M,= fa pale: (F5, (E )) + oF, | Gleichung (9)
In der obigen Gleichung ist F, das Eingangsmerkmal, F,, ist das Ausgangsmerkmal, 7 ist 1, wenn der Engpass wahr ist, andernfalls ist es 0, À ist die Anzahl der
Merkmalsfusionsmodule und w@ ist der Restgewichtsverzerrungskoeffizient, Sein Modul kann aufgrund des relativ begrenzten Informationsaustauschs zwischen den Merkmalskarten zu einer schlechten Zielerkennungsgenauigkeit führen, während die ODC2F-Formel wie folgt angegeben wird: , I (à f"
Fy = FC (M oT OF, ) Gleichung (10) 1 _ gl] 3x3 3x3
M,= Jar (al (0; (E, ))) +TH, I Gleichung (11)
In der obigen Gleichung ist F’, das Ausgangsmerkmal; <7; ist die im vorherigen
Abschnitt beschriebene volldimensionale dynamische Faltung; Das Erlernen von
Aufmerksamkeitsmerkmalen durch volldimensionale dynamische Faltung unter Verwendung einer parallelen Strategie für die vier Dimensionen des Faltungs-Kernraums bietet eine bessere
Leistung bei der Erfassung umfangreicher kontextueller Informationen.
Schritt 2.4: Erwartungsmaximierung Dynamischer Faltungsaufmerksamkeitsmechanismus
Das EM-DCA-Netz ist wie folgt aufgebaut: . . Cx HW . . ..
Lassen Sie das Eingangsmerkmal FeR , C den Eingangskanal, H und W die Länge bzw. die Breite des Eingangsmerkmals bezeichnen und unterteilen Sie das Merkmal F in G
Untermerkmale entlang der Kanaldimension, G<<C, dann kann F wie folgt ausgedriickt werden:
ClIGxHxW
F=[F.F, FF eR Gleichung (12)
Der EM-DCA-Aufmerksamkeitsmechanismus hat vier Zweige, in denen drei parallele Pfad&}601503 die Beschreibung der Aufmerksamkeitsgewichte der gruppierten Merkmalskarte extrahieren; zwei 1x1-Zweige und ein 3x3-Zweig, Zwei der globalen Durchschnittspools werden verwendet, um
Kanäle entlang zweier räumlicher Richtungen im 1x1-Zweig zu kodieren, und eine volldimensionale dynamische Faltung ist im 3x3-Zweig enthalten, um multiskalige
Merkmalsdarstellungen zu erfassen;
Die beiden parallelen 1D-Merkmalscodierungsvektoren teilen sich eine 1x1-Faltung, so dass das Modell lokale kanalübergreifende Interaktionen erfassen kann, und die Formel für die
Codierung globaler Informationen auf der Hôhe H in Richtung der horizontalen Dimension von
Kanal C lautet:
P*(H)=L 3 x (Hi) Gleichung (13)
W 0<i<W
Die gepoolte Leistung entlang des Kanals C bei der Breite W ist gegeben durch:
PY (W)=L S x (J) Gleichung (14)
H oz j<H
Der 3x3-Zweig erfasst lokale kanalübergreifende Interaktionen durch Faltung, um den
Merkmalsraum zu erweitern.
Das Cross-Spatial-Learning schafft Abhängigkeiten zwischen Kanälen und Räumen für eine reichhaltigere Merkmalsaggregation. Globale räumliche Informationen werden in der Ausgabe des 1x1-Zweiges mit Hilfe von 2D Global Average Pooling kodiert, und die Ausgabe des kleinsten 1xG CHGxHW .
Zweiges wird in die entsprechende dimensionale Form R X R, umgewandelt, die durch Gleichung gegeben ist: 1 H W
P= ow 22) Gleichung (15)
SchlieBlich wird der Ausgang jedes Zweiges als Aufmerksamkeitsgewichtungswert berechnet, der mit der globalen semantischen Information kombiniert wird, um den Fokusbereich zu erfassen.
Der beschriebene Schritt 3 wird gemäß den folgenden Schritten durchgeführt:
Schritt 3.1: Eingabe des in Schritt 1.4 aufgeteilten Trainingssatzes von Bildern in das in
Schritt 3 erhaltene LDKA-NET-Netzmodell zum Trainieren, Einstellen der batch size auf 16,
Verwenden des stochastischen Gradientenabstiegs mit einem Impuls von 0,9, Trainieren von 400
Runden und Erhalten der Trainingsergebnisse;
Schritt 3.2: Validierung des LDKA-NET-Netzmodells anhand des Validierungssatzes,
Ermittlung der Validierungsergebnisse und Analyse der Unterschiede zwischen den
Trainingsergebnissen und den Validierungsergebnissen, z. B. ob sie überangepasst oder unterangepasst sind; Wenn eine Uberanpassung vorliegt, bedeutet dies, dass das Modell im
Trainingsset gut, im Validierungsset jedoch schlecht abschneidet, d.h. die
Generalisierungsfähigkeit des Modells ist schlecht, was durch eine Erhöhung der Anzahl der
Bilder im Trainingsset, eine Verringerung der Komplexität des Modells und eine Feinabstimmung der Hyperparameter gelöst werden muss; wenn eine Unteranpassung vorliegt, bedeutet dies, dass das Modell im Trainingsset und im Validierungsset schlecht abschneidet, was durch eine Erhöhung der Komplexität des Modells, eine Feinabstimmung der Hyperparameter und das Hinzufügen weiterer Zielmerkmalmethoden gelöst werden muss;
Schritt 3.3: Das optimierte LDKA-NET-Netzmodell wird durch Anpassung der
Hyperparameter des LDKA-NET-Netzmodells auf dem Validierungssatz, Feineinstellung db}/601503
Lernrate auf 0,003 für eine bessere Robustheit und Einstellung der batch_size auf 16 erhalten; wobei die Hyperparameter die Parameter sind, die manuell eingestellt werden müssen, bevor das
Modell trainiert wird.
Der besagte Schritt 4 wird insbesondere gemäß den folgenden Schritten durchgeführt:
Schritt 4.1: Eingabe des Testsatzes in den beschriebenen Schritt 3.3, um das optimierte
LDKA-NET-Modell zu erhalten; der Optimierungsprozess ist wie folgt spezifiziert: Einstellung der Hyperparameter des LDKA-NET-Netzmodells: Pixelgröße des Eingangsbildes 640*640, 150
Runden Freeze-Training, batch size32, 250 Runden Unfreeze-Training, batch _size4, num workers2, Adam-Optimierer, Decay-Gewichtskoeffizienten 5*10- 4, anfängliche Lernrate 1* 10- 5 und Einstellung des IoU-Schwellenwerts auf 0,5 für das Experiment beim Testen des
Testsatzes. Während der Validierung wird die Lernrate zur Verbesserung der Robustheit auf 0,003 feinabgestimmt, die batch size wird auf 32 gesetzt, die ersten 150 Trainingsrunden werden eingefroren und der Verlust nimmt schnell ab, die nächsten 250 Runden werden aufgetaut und das
Netz wird kontinuierlich feinabgestimmt, und die Verluständerung in der Validierungsmenge nimmt nach 350 Runden von insgesamt 400 Runden allmählich ab, um das optimierte LDKA-
NET-Modell zu erhalten;
Schritt 4.2: Testen Sie die Leistung des optimierten LDKA-NET-Modells anhand des
Testsatzes, um die Erkennungsergebnisse zu erhalten.
Die vorliegende Erfindung hat die folgenden vorteilhaften Auswirkungen
Zunächst wird das WFVC-Netzwerkmodul (Wide Field View Convolutional Network,
WFVC-Net) vorgeschlagen, das größere Faltungskerne verwendet, um die
Wahrnehmungsfähigkeit des Netzwerks und die Generalisierungsfähigkeit zu verbessern und sich besser an komplexe Ubertragungsleitungsszenen anzupassen. Gleichzeitig kann durch die
Verwendung eines CNN mit großem Kernel ein größeres effektives Wahrnehmungsfeld mit weniger Schichten erreicht werden, und gleichzeitig wird eine hôhere Formverzerrung erzielt, wodurch die Forminformationen im Bild besser erfasst werden kônnen.
Zweitens wird ein volldimensionales dynamisches Faltungsnetzwerk für die Merkmalsfusion vorgeschlagen. Im Vergleich zur traditionellen statischen Faltung kann dieses Papier die
Genauigkeit des CNN mit höherer Parametereffizienz und Merkmalsextraktionsfähigkeit erheblich verbessern, indem es eine lineare Kombination mehrerer Faltungskerne und deren inputbezogene Aufmerksamkeitsgewichtung lernt.
Schließlich wird der Mechanismus der dynamischen Faltungsaufmerksamkeit mit
Erwartungsmaximierung (Expectation Maximization Dynamic Convolutional Attention, EM-
DCA) verwendet, um sich auf wichtige Informationen in den Eingabedaten zu konzentrieren und diese zu nutzen, damit das Modell die Aufmerksamkeit besser zuordnen kann. Die Fokussierung auf wichtige Ziel- oder Szenenteile und das Erlernen einer verallgemeinerten Merkmalsdarstellung tragen dazu bei, die Generalisierungsfähigkeit und Robustheit des Modells zu verbessern und die
Position des Ziels genauer zu lokalisieren.
Beschreibung der beigefügten Zeichnungen
Bild 1 zeigt das Netzwerk-Strukturdiagramm des Verfahrens zur Identifizierung und
Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET, die aus vier Teilen besteht, nämlich, Bild-Vorverarbeitung, Backbone-Netzwerk (Backbone),
Feature-Extraktion Netzwerk (Hals) und Vorhersage-Netzwerk (Kopf);
Bild 2 zeigt die Struktur des Weitwinkel-Faltungs-Backbone-Netzes des erfindungsgemäßen
Algorithmus; LU601503
Bild 3 ist ein Strukturdiagramm des volldimensionalen dynamischen Faltungsmerkmal-
Fusionsnetzwerks der vorliegenden Erfindung;
Bild 4 ist ein Strukturdiagramm des erwartungsmaximierenden dynamischen
Faltungsaufmerksamkeitsmechanismus EM-DCA-Netzwerks der vorliegenden Erfindung;
Bild 5 ist ein Beispieldiagramm der Ergebnisse der Erkennung von eisbedeckten
Isolatordefekten im LDKA-NET-Faltungsnetzwerk LDKA-NET-basierten Verfahren zur
Identifizierung und Erkennung von eisbedeckten Isolatoren gemäß der vorliegenden Erfindung;
Bild 6 ist ein Beispieldiagramm der Ergebnisse der Erkennung von Defekten in eisbedeckten
Isolatoren bei Regen und Schnee in dem auf dem Faltungsnetzwerk LDKA-NET basierenden
Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren im Sinne der vorliegenden Erfindung;
Bild 7 ist ein Beispieldiagramm der Ergebnisse der Erkennung von Defekten eisbedeckter
Isolatoren bei klarem Wetter in dem auf dem Faltungsnetzwerk LDKA-NET basierenden
Verfahren zur Identifizierung und Erkennung eisbedeckter Isolatoren im Sinne der vorliegenden
Erfindung.
Detaillierte Beschreibung
Die vorliegende Erfindung wird im Folgenden in Verbindung mit den beigefügten
Zeichnungen und spezifischen Ausführungsformen detailliert beschrieben
Die vorliegende Ausführungsform des Verfahrens zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET wird in
Übereinstimmung mit den folgenden Schritten implementiert:
Schritt 1: Sammeln von Bilddaten von defekten, mit Eis bedeckten Isolatoren auf einer
Übertragungsleitung, Kennzeichnung und Aufteilung des Datensatzes in einen Trainingssatz, einen Validierungssatz und einen Testsatz;
Schritt 2: Aufbau eines LDKA-NET-Netzwerkmodells mit Faltungsnetzwerken;
Schritt 3: Eingabe der Bilder des Trainingssatzes in das LDKA-NET-Netzwerkmodell des
Faltungsnetzwerks zum Training und Erhalt eines optimierten LDKA-NET-Netzwerkmodells durch Training;
Schritt 4: Eingabe der Bilder im Testsatz in das optimierte LDKA-NET-Netzwerkmodell zur
Erkennung und Erhalt einer Karte der Defekterkennungsergebnisse des eisbedeckten Isolators.
Wobei Schritt 1 insbesondere in Übereinstimmung mit den folgenden Schritten durchgeführt wird:
Schritt 1.1: eine große Anzahl von Inspektionsvideos wird von einer hochauflösenden
Kamera, die von der UAV getragen wird, aufgenommen, einschließlich Bilder von mit Eis bedeckten Isolatoren der Übertragungsleitung in verschiedenen komplexen Hintergründen, sowie
Bilder, die Fern-, Nah- und Großaufnahmen umfassen, und Beibehaltung einer konsistenten
Anzahl von Bildern von jeder Art von mit Eis bedeckten Isolatoren;
Schritt 1.2: Drehen, Spiegeln, Skalieren und beliebiges Beschneiden der in Schritt 1.1 erhaltenen Bilder von eisbedeckten Isolatoren, wodurch die erweiterten Bilder von eisbedeckten
Isolatoren erhalten werden;
Schritt 1.3: Nehmen Sie die Summe des in Schritt 1.1 erhaltenen Bildes des eisbedeckten
Isolators und des in Schritt 1.2 erhaltenen erweiterten Bildes des eisbedeckten Isolators als eine
Bibliothek von Beispielbildern des eisbedeckten Isolators und erstellen Sie eine entsprechende
Beschriftungsdatei für jedes Beispielbild in der Bibliothek von Beispielbildern des eisbedeckten
Isolators. Die Beschriftungsdatei entspricht dem xml-Beschriftungsdateistandard des Pascal VOEY601503
Formats, und die xml-Beschriftungsdatei enthält die Bild-ID, den Bildpfad, den Bildnamen und die Pixelhôhe und -breite des Bildes, wobei die Pixelhôhe und -breite des Bildes durch die vier
Koordinaten eines rechteckigen Kastens dargestellt werden, die X_.., Ymin> Xmax> Ymax Sind, wobei (Xpin> Ymin ) die Koordinaten der oberen linken Eckpunkte des rechteckigen Kastens und (Xmnax > Vmax ) die Koordinaten der unteren rechten Eckpunkte des rechteckigen Kastens sind;
Schritt 1.4: Aufteilung der in Schritt 1.3 erhaltenen Bildbibliothek von eisbedeckten
Isolatorproben in einen Trainingssatz, einen Validierungssatz und einen Testsatz im Verhältnis 8:1:1.
Der besagte Schritt 2 wird insbesondere in Übereinstimmung mit den folgenden Schritten durchgeführt:
Schritt 2.1: Aufbau des LDKA-NET-Netzwerkmodells, das aus vier Teilen besteht:
Bildvorverarbeitung, Backbone-Netzwerk (Rückgrat), Merkmalsextraktionsnetzwerk (Hals) und
Vorhersagenetzwerk (Kopf); das WFVC-Netz verwendet einen größeren Faltungskern, um die
Wahrnehmungs- und Verallgemeinerungsfähigkeiten des Netzwerks zu verbessern und sich besser an die komplexen, mit Eis bedeckten Ubertragungsleitungen anzupassen. Die volldimensionale dynamische Faltung verbessert die Genauigkeit des CNN durch das Erlernen einer linearen
Kombination mehrerer Faltungskerne und die Gewichtung der eingabebezogenen
Aufmerksamkeit mit höherer Parametereffizienz und Merkmalsextraktionsfähigkeit erheblich. Um schließlich den Rechenaufwand zu verringern und die Informationsintegrität jedes Kanals zu erhalten, werden einige der Merkmalskanäle in Massendaten umorganisiert und durch den
Mechanismus der dynamischen Faltungsaufmerksamkeit mit Erwartungsmaximierung (EM-DCA) in mehrere Gruppen unterteilt, so dass die räumlichen semantischen Merkmale gleichmäßig in jeder Merkmalsgruppe verteilt sind.
Schritt 2.2: die Struktur des Weitbereichs-Sichtfeld-Faltungs-Backbone-Netzwerks ist wie folgt:
Wie in Bild 2 gezeigt, kann das herkömmliche CNN durch das Stapeln mehrerer kleiner
Faltungskerne zwar ein größeres sensorisches Feld erzeugen, aber die Rechenkomplexität des
Netzwerks steigt mit der Zunahme der Anzahl der Schichten dramatisch an, und gleichzeitig kann es leicht zu dem Problem verschwindender oder explodierender Gradienten kommen. Um dieses
Problem zu lösen, schlägt die vorliegende Erfindung ein Faltungs-Backbone-Netz mit breitem
Sichtfeld vor, das größere Faltungskerne verwendet, um die Wahrnehmungsfähigkeit des Netzes und die Generalisierungsfähigkeit zu verbessern und sich besser an die komplexen Szenen in diesem Papier anzupassen.
Das Wide Field of View Convolutional Backbone Network besteht aus vier Hauptstufen, die jeweils eine Ausgangsschicht (stem), eine Stufenschicht (Stage) und eine
Übergangsfaltungsschicht (Transition) enthalten; Unter ihnen ist die tiefenweise Faltungsschicht eine tiefenseparierbare Faltung, die aus zwei Teilen besteht, nämlich der tiefenweisen (DW)
Faltung und der punktweisen (PW) Faltung; jeder Faltungskern der DW-Faltung wird nur für die entsprechende Merkmalskarte berechnet, was jedoch die Informationsinteraktion zwischen den
Merkmalspixeln der verschiedenen Schichten schwächen kann, was zu einem Genauigkeitsverlust führen kann; Die PW-Faltung ist eine 1x1-Faltung mit n-Kanal-Ausgang, die darauf abzielt, die fehlende Interaktion zwischen den Merkmalen bei der DW-Faltung zu kompensieren. Durd#/601503
Punkt-zu-Punkt-Multiplikations- und Additionsoperationen ist die PW-Faltung in der Lage, die
Informationen verschiedener Merkmalskarten zu kombinieren, um die Interaktion zwischen den
Merkmalen zu verbessern;
Unter der Annahme, dass die Größe der Eingabe-Merkmalskarte D, xD, xC | die Größe des Faltungs-Kernels D, x D, xC und die Größe der Ausgabe-Merkmalskarte D, xD, XC ut ist, wird die Anzahl der Parameter der Standard-Faltungsschicht in der folgenden Gleichung dargestellt:
Ferandard — (D, X D, X C) ’ Cou Gleichung (1)
Dabei steht C für die Anzahl der Fingangsmerkmalskanäle, C, für die Anzahl der
Ausgangsmerkmalskanäle und die Anzahl der Faltungskerne;
Darüber hinaus ist die Tiefenfaltung in der tiefenseparierbaren Faltung für die Filterung,
Größe D), x D, x1 , C insgesamt, verantwortlich, die auf jeden Kanal des Eingangs wirkt, und die punktweise Faltung ist für die Transformation der Kanäle, Größe 1x1xC, Cut insgesamt, verantwortlich, die auf das Ausgangs-Feature-Mapping der Tiefenfaltung wirkt;
Die Anzahl der tiefenseparierbaren Faltungsparameter ist durch die folgende Gleichung gegeben.
Pheptinvise = (D, x D, x 1) xC+1x1xCxC 7 leich 2 =D, x D, xC+CxC,, Gleichung (2)
Das Verhältnis zwischen der Anzahl der Deep Convolutional-Parameter und der Anzahl der
Standard-Convolutional-Parameter beträgt:
Porandard (D, X D; x C) ) Cu
Ha Gleichung (3
CC, D,xD, eichung (3)
Auf dieser Grundlage kann die Verwendung der tiefen-separierbaren Faltung das Problem der steigenden Anzahl von Parametern und FlieBkomma-Operationen aufgrund der Verwendung eines großen Faltungs-Kernels lösen. Die Stammschicht besteht aus einer 3 x 3-Faltung mit einer
SchrittgrôBe von 2, einer tiefen-separierbaren Faltung und einer DW-Faltung mit einer
SchrittgrôBe von 2, die für die Hoch- und Herunterskalierung des Eingangsbildes verwendet wird, wie in der folgenden Gleichung dargestellt: _ 33] od 33 | 533
W (h/4,w/4,c1) T D, 1 (Di = (Mae) ))| Gleichung (4)
Wie in Gl. gezeigt, wobei w die Merkmalsgewichtung ist und D das in der Tiefe trennbare
Volumen darstellt; unter der Annahme, dass die Eingangsdimensionen H und W sind, wobei H die
Bildhöhe und W die Bildbreite ist, ist die Ausgangsmerkmalsdimension der Stammschicht/601503
H/4xW/4xC1, wobei C1 die Anzahl der Kanäle nach der Hochskalierung ist;
Die Stufenschicht wird durch RepLK Block und ConvFFN gestapelt; RepLK Block enthält die Normalisierungsschicht, 1x1-Faltung und tiefenseparierbare Faltung sowie wichtige
Restverbindungen; ConvFFN verwendet 1x1-Faltung anstelle von vollständig verbundenen
Schichten und Restverbindungen zwischen den Schichten; die Ubergangsschicht verwendet hauptsächlich PW-Faltung und DW-Faltung mit einer Schrittgröße von 2 für das Downsampling von Bildern;
Darüber hinaus ermöglicht die Verwendung eines Backbone-Netzes mit großen Kernen ein größeres sensorisches Sichtfeld mit weniger Schichten und gleichzeitig eine höhere
Formabweichung, wie in der folgenden Gleichung dargestellt:
RF, = RE, xS,+(K,~1) Gleichung (5)
Die obige Gleichung ist die Formel für die Berechnung des sensorischen Feldes, wobei RF, die Größe des sensorischen Feldes der n-ten Schicht, RF,, die Größe des sensorischen Feldes der n-1-ten Schicht, S, die Schrittgröße der n-ten Schicht und X, die Größe des Faltungs-Kernels der n-ten Schicht ist;
Schritt 2.3: Volldimensionales dynamisches Faltungsmodul für die Merkmalsfusion Die
Netzstruktur ist wie folgt:
Wie in Bild 3 zu sehen ist, mangelt es der Anwendung der traditionellen statischen Faltung bei der komplexen Szene der Ubertragungsleitungen an Flexibilität, da sie während des
Netzwerktrainings unverändert bleibt und nicht an die Änderungen in der Merkmalsverteilung der verschiedenen Fingabedaten angepasst werden kann, was zu einer Verringerung der
Anpassungsfähigkeit des Modells und einer schlechteren Erkennung von Isolatoren in komplexen
Szenen führt. In der Zwischenzeit verwendet das Basismodell eine stufenübergreifende
Merkmalsfusionsstrategie, die dazu führen kann, dass Merkmalsinformationen verwischt oder ignoriert werden, was die Leistung des Modells beeintrachtigt, und es muss die Gewichte und
Verzerrungen der Merkmalsfusion erlernen, was zu dem Risiko einer Uberanpassung fiihrt. Die vorliegende Erfindung schlägt außerdem ein volldimensionales dynamisches Faltungsmerkmal-
Fusionsmodul vor, das eine lineare Kombination mehrerer Faltungskerne und deren eingabebezogene Aufmerksamkeitsgewichtung erlernt, um die Genauigkeit der Fehlererkennung bei eisbedeckten Isolatoren zu verbessern.
Die volldimensionale dynamische Faltung führt einen mehrdimensionalen
Aufmerksamkeitsmechanismus durch eine parallele Strategie zum Erlernen einer flexibleren
Aufmerksamkeit für die vier Dimensionen des Fusionskernraums ein, wobei für den Fusionskern den Faltungsparametern an der Nullposition, dem Faltungsfilter für den Eingangskanal, den
Faltungsfiltern für die verschiedenen Ausgangskanäle und den n Gesamtfaltungskernen
Aufmerksamkeitsgewichtswerte zugewiesen werden; Durch die schrittweise Multiplikation verschiedener Aufmerksamkeiten auf die Dimensionen der Faltung entlang der Position, des
Kanals, des Filters und des Kerns kann die Faltungsoperation für die Eingaben in jeder Dimension existieren, was eine bessere Leistung zur Erfassung reichhaltiger kontextueller Informationen bietet.
Konventionelle Faltungsschichten haben nur einen statischen Faltungs-Kernel, der auf alt&/601503
Eingabeproben angewandt wird, aber für dynamische Faltungsschichten wird eine lineare
Kombination von n Faltungs-Kernen verwendet, die dynamisch mit einem
Aufmerksamkeitsmechanismus gewichtet werden, um die Faltungsoperation von der Eingabe abhängig zu machen. Die traditionelle dynamische Faltungsoperation kann wie folgt definiert werden:
Xour = XD A W, Gleichung (6) i=l
In der obigen Gleichung ist x der Merkmalseingang der Größe (h,w,c,) und x, der
Merkmalausgang der Größe (h,w,c,,). W, bezeichnet den i-ten Ausgangsfilterkern und a,, ist der Aufmerksamkeitsfaktor. Die traditionelle dynamische Faltung enthält jedoch nur den Faltungs-
Kernel und die Aufmerksamkeitsgewichte für den Filter-Kernel. Die detaillierten Parameter des
Faltungskerns bestehen jedoch immer noch aus den Kernelparametern sowie den Eingangs- und
Ausgangskanälen, wodurch andere Parameter, die auf die Faltung abgestimmt werden kônnen, ignoriert werden und die Faltungsparameter um einen Faktor n erhöht werden, was ineffizient ist;
Die Implementierung der volldimensionalen dynamischen Faltung ist unten dargestellt: n
Kod out = xy (a, © ag © a, © a, © W) Gleichung (7) i=l
In der obigen Gleichung sind «,,, a, , 2, und «, die Aufmerksamkeitskoeffizienten des
Faltungskerns im Raum, im Kanal, im Faltungsfilter bzw. im Faltungskern. Die vier Arten von
Aufmerksamkeitsgewichten ermöglichen Faltungsoperationen fiir alle räumlichen Positionen verschiedener Eingaben, alle Eingangskanäle, alle Filter und alle Kerne und bieten
Leistungsgarantien fiir die Erfassung umfangreicher kontextueller Hinweise.
Die volldimensionale Merkmalsfusion (Optimised Dynamic Convolution Coarse-to-Fine,
ODC2F) läuft wie folgt ab:
Im Basismodell spielt das C2F (Coarse-to-Fine) -Modul zwar eine Schlüsselrolle im Prozess der stufenübergreifenden Merkmalsfusion, aber sein stufenübergreifender
Merkmalsfusionsprozess kann dazu führen, dass einige wichtige Merkmalsinformationen verwischt oder ignoriert werden, was die Leistung des Modells beeinträchtigt. Außerdem muss es die Gewichte und Verzerrungen der Merkmalsfusion erlernen, so dass es eine große Anzahl zusätzlicher Parameter einführt, was zu einem Risiko der Uberanpassung führen kann: 1x1 .
Fou =r (M ot oF,) Gleichung (8) _ ll 3x3 3x3
M,= fa pale: (F5, (E )) + oF, | Gleichung (9)
In der obigen Gleichung ist F, das Eingangsmerkmal, F,, ist das Ausgangsmerkmal, 7 ist 1, wenn der Engpass wahr ist, andernfalls ist es 0, A ist die Anzahl der
Merkmalsfusionsmodule und « ist der Restgewichtsverzerrungskoeffizient, Sein Modul kann aufgrund des relativ begrenzten Informationsaustauschs zwischen den Merkmalskarten zu einb}/601503 schlechten Zielerkennungsgenauigkeit führen, während die ODC2F-Formel wie folgt angegeben wird: , I (à f"
Fy = FC (M oT OF, ) Gleichung (10) 1 _ gl] 3x3 3x3
M,= Ja (al (0; (E, ))) +TH, I Gleichung (11)
In der obigen Gleichung ist F’, das Ausgangsmerkmal; <7; ist die im vorherigen
Abschnitt beschriebene volldimensionale dynamische Faltung; Das Erlernen von
Aufmerksamkeitsmerkmalen durch volldimensionale dynamische Faltung unter Verwendung einer parallelen Strategie für die vier Dimensionen des Faltungs-Kernraums bietet eine bessere
Leistung bei der Erfassung umfangreicher kontextueller Informationen.
Schritt 2.4: Erwartungsmaximierender dynamischer Faltungsaufmerksamkeitsmechanismus
Die EM-DCA-Netzwerkstruktur ist wie folgt: Wie in Bild 4 dargestellt, verwendet der herkömmliche Aufmerksamkeitsmechanismus eine Dimensionalitätsreduktion der Kanäle, um kanalübergreifende Beziehungen zu modellieren, wobei das Netzwerk die Informationen zu jedem
Kanal nur schwer behalten kann und das Modell eine schlechte Leistung erbringt, was es schwierig macht, die gewünschten Ergebnisse zu erzielen. Daher verwendet die vorliegende Erfindung den erwartungsmaximierenden Aufmerksamkeitsmechanismus, um die Aufmerksamkeit auf die wichtigen Informationen in den Eingabedaten zu richten und diese zu nutzen, was dem Modell hilft, seine Aufmerksamkeit besser auf die wichtigen Ziel- oder Szenenteile zu lenken, und es lernt eine verallgemeinerte Merkmalsdarstellung, was die Generalisierungsfähigkeit und Robustheit des
Modells verbessert. . . Cx HW . .
Lassen Sie das Eingangsmerkmal FeR , C den Eingangskanal, H und W die Länge bzw. die Breite des Eingangsmerkmals bezeichnen und unterteilen Sie das Merkmal F in G
Untermerkmale entlang der Kanaldimension, G<<C, dann kann F wie folgt ausgedriickt werden:
ClIGxHxW
F=|F,E,F,].FeR Gleichung (12)
Der EM-DCA-Aufmerksamkeitsmechanismus hat vier Zweige, in denen drei parallele Pfade die Beschreibung der Aufmerksamkeitsgewichte der gruppierten Merkmalskarte extrahieren; zwei 1x1-Zweige und ein 3x3-Zweig, Zwei der globalen Durchschnittspools werden verwendet, um
Kanäle entlang zweier räumlicher Richtungen im 1x1-Zweig zu kodieren, und eine volldimensionale dynamische Faltung ist im 3x3-Zweig enthalten, um multiskalige
Merkmalsdarstellungen zu erfassen;
Die beiden parallelen 1D-Merkmalscodierungsvektoren teilen sich eine 1x1-Faltung, so dass das Modell lokale kanalübergreifende Interaktionen erfassen kann, und die Formel für die
Codierung globaler Informationen auf der Hôhe H in Richtung der horizontalen Dimension von
Kanal C lautet:
P*(H)=L 3 x (Hi) Gleichung (13)
W O<isW
Die gepoolte Leistung entlang des Kanals C bei der Breite W ist gegeben durch:
P” (W)= + > x (JW) Gleichung aay 995
H oz j<H
Der 3x3-Zweig erfasst lokale kanalübergreifende Interaktionen durch Faltung, um den
Merkmalsraum zu erweitern.
Es werden nicht nur die Informationen zwischen den Kanälen kodiert, um die Bedeutung der verschiedenen Kanäle anzupassen, sondern auch die genaue räumliche Strukturinformation wird in den Kanälen beibehalten.
Das Cross-Spatial-Learning schafft Abhängigkeiten zwischen Kanälen und Räumen für eine reichhaltigere Merkmalsaggregation. Globale räumliche Informationen werden in der Ausgabe des 1x1-Zweiges mit Hilfe von 2D Global Average Pooling kodiert, und die Ausgabe des kleinsten 1xG CHGxHW .
Zweiges wird in die entsprechende dimensionale Form R XR, umgewandelt, die durch Gleichung gegeben ist: 1 H W
P= ow 2200) Gleichung (15)
Schließlich wird die Ausgabe jedes Zweigs als Aufmerksamkeitsgewichtungswert berechnet, der mit den globalen semantischen Informationen kombiniert wird, um den Schwerpunktbereich zu erfassen. Dieses Modul hilft dem Modell, die Schlüsselinformationen in den Fingabedaten effektiver zu erfassen und die Aufmerksamkeitsverteilung entsprechend ihrer Bedeutung dynamisch anzupassen. Gleichzeitig werden unter Beibehaltung der Informationen zu den einzelnen Kanälen und mit dem Ziel, den Rechenaufwand zu verringern, einige der Kanäle in
Stapeldimensionen umgestaltet, und die Kanaldimensionen werden in mehrere Untermerkmale gruppiert, so dass die räumlichen semantischen Merkmale gleichmäßig in jeder Merkmalsgruppe verteilt sind.
Wobei Schritt 3 insbesondere in Ubereinstimmung mit den folgenden Schritten implementiert wird:
Schritt 3.1: Eingabe des in Schritt 1.4 aufgeteilten Trainingssatzes von Bildern in das in
Schritt 3 erhaltene LDKA-NET-Netzmodell zum Trainieren, Einstellen der batch size auf 16,
Verwenden des stochastischen Gradientenabstiegs mit einem Impuls von 0,9, Trainieren von 400
Runden und Erhalten der Trainingsergebnisse;
Schritt 3.2: Validierung des LDKA-NET-Netzmodells anhand des Validierungssatzes,
Ermittlung der Validierungsergebnisse und Analyse der Unterschiede zwischen den
Trainingsergebnissen und den Validierungsergebnissen, z. B. ob sie überangepasst oder unterangepasst sind; Wenn eine Uberanpassung vorliegt, bedeutet dies, dass das Modell im
Trainingsset gut, im Validierungsset jedoch schlecht abschneidet, d.h. die
Generalisierungsfähigkeit des Modells ist schlecht, was durch eine Erhöhung der Anzahl der
Bilder im Trainingsset, eine Verringerung der Komplexität des Modells und eine Feinabstimmung der Hyperparameter gelöst werden muss; wenn eine Unteranpassung vorliegt, bedeutet dies, dass das Modell im Trainingsset und im Validierungsset schlecht abschneidet, was durch eine Erhöhung der Komplexität des Modells, eine Feinabstimmung der Hyperparameter und das Hinzufügen weiterer Zielmerkmalmethoden gelöst werden muss;
Schritt 3.3: Das optimierte LDKA-NET-Netzmodell wird durch Anpassung der
Hyperparameter des LDKA-NET-Netzmodells auf dem Validierungssatz, Feineinstellung der
Lernrate auf 0,003 fiir eine bessere Robustheit und Einstellung der batch size auf 16 erhalten;
wobei die Hyperparameter die Parameter sind, die manuell eingestellt werden müssen, bevor d4$/601503
Modell trainiert wird.
Der besagte Schritt 4 wird insbesondere gemäß den folgenden Schritten durchgeführt:
Schritt 4.1: Eingabe des Testsatzes in den beschriebenen Schritt 3.3, um das optimierte
LDKA-NET-Modell zu erhalten; der Optimierungsprozess ist wie folgt spezifiziert: Einstellung der Hyperparameter des LDKA-NET-Netzmodells: Pixelgröße des Eingangsbildes 640*640, 150
Runden Freeze-Training, batch size32, 250 Runden Unfreeze-Training, batch _size4, num_workers2, Adam-Optimierer, Decay-Gewichtskoeffizienten 5*10- 4, anfängliche Lernrate 1* 10- 5 und Einstellung des IoU-Schwellenwerts auf 0,5 für das Experiment beim Testen des
Testsatzes. Während der Validierung wird die Lernrate zur Verbesserung der Robustheit auf 0,003 feinabgestimmt, die batch size wird auf 32 gesetzt, die ersten 150 Trainingsrunden werden eingefroren und der Verlust nimmt schnell ab, die nächsten 250 Runden werden aufgetaut und das
Netz wird kontinuierlich feinabgestimmt, und die Verluständerung in der Validierungsmenge nimmt nach 350 Runden von insgesamt 400 Runden allmählich ab, um das optimierte LDKA-
NET-Modell zu erhalten;
Schritt 4.2: Testen Sie die Leistung des optimierten LDKA-NET-Modells anhand des
Testsatzes, um die Erkennungsergebnisse zu erhalten.

Claims (5)

Ansprüche LU601503
1. Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET, dadurch gekennzeichnet, dass es in Übereinstimmung mit den folgenden Schritten implementiert wird: Schritt 1: Sammeln von Bilddaten von defekten Isolatoren, die Eis auf einer Übertragungsleitung bedecken, Etikettieren und Aufteilen des Datensatzes in einen Trainingssatz, einen Validierungssatz und einen Testsatz; Schritt 2: Erstellung eines LDKA-NET-Netzmodells mit Faltungsnetzwerken; Schritt 3: Eingabe der Bilder im Trainingssatz in das LDKA-NET-Netzwerkmodell mit Faltungsnetzwerk zum Trainieren, und Erhalt des optimierten LDKA-NET-Netzwerkmodells durch Training; Schritt 4: Eingabe der Bilder im Testsatz in das optimierte LDKA-NET-Netzwerkmodell zur Erkennung und Erhalt einer Karte der Defekterkennungsergebnisse des eisbedeckten Isolators.
2. Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt 1 insbesondere gemäß den folgenden Schritten durchgeführt wird: Schritt 1.1: Aufnehmen einer großen Anzahl von Inspektionsvideos, einschließlich Bildern von mit Eis bedeckten Isolatoren von Übertragungsleitungen in verschiedenen komplexen Hintergründen, sowie Bildern, einschließlich Fernansichten, Nahansichten und Nahansichten, durch eine von der Drohne getragene Hochauflösungskamera, und Beibehalten einer konsistenten Anzahl von Bildern von jeder Art von mit Eis bedecktem Isolator; Schritt 1.2: Drehen, Spiegeln, Skalieren und beliebiges Beschneiden der in Schritt 1.1 erhaltenen Bilder der eisbedeckten Isolatoren, um die erweiterten Bilder der eisbedeckten Isolatoren zu erhalten; Schritt 1.3: Nehmen Sie die Summe des in Schritt 1.1 erhaltenen Bildes des eisbedeckten Isolators und des in Schritt 1.2 erhaltenen erweiterten Bildes des eisbedeckten Isolators als eine Bibliothek von Beispielbildern des eisbedeckten Isolators und erstellen Sie eine entsprechende Beschriftungsdatei für jedes Beispielbild in der Bibliothek von Beispielbildern des eisbedeckten Isolators. Die Beschriftungsdatei entspricht dem xml-Beschriftungsdateistandard des Pascal VOC- Formats, und die xml-Beschriftungsdatei enthält die Bild-ID, den Bildpfad, den Bildnamen und die Pixelhöhe und -breite des Bildes, wobei die Pixelhöhe und -breite des Bildes durch die vier Koordinaten eines rechteckigen Kastens dargestellt werden, die X_.., Ymin> Xmax> Ymax Sind, wobei (Xmin> Ymin ) die Koordinaten der oberen linken Eckpunkte des rechteckigen Kastens und (Xmnax>Ymax) die Koordinaten der unteren rechten Eckpunkte des rechteckigen Kastens sind; Schritt 1.4: Teilen Sie die in Schritt 1.3 erhaltene Bildbibliothek der eisbedeckten Isolatorproben in einen Trainingssatz, einen Validierungssatz und einen Testsatz im Verhältnis 8:1:1 auf.
3. Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt 2 insbesondere gemäß den folgenden Schritten implementiert wird: Schritt 2.1: Aufbau eines Netzwerkmodells des Faltungsnetzwerks LDKA-NET, das vier
Teile umfasst: Bildvorverarbeitung, Backbone-Netzwerk (Rückgrab}601 503 Merkmalsextraktionsnetzwerk (Hals) und Vorhersagenetzwerk (Kopf); Schritt 2.2: Die Struktur des Backbone-Faltungsnetzwerks mit weitem Sichtfeld ist wie folgt Das Wide Field of View Convolutional Backbone Network besteht aus vier Hauptstufen, die jeweils eine Ausgangsschicht (stem), eine Stufenschicht (Stage) und eine Übergangsfaltungsschicht (Transition) enthalten; unter ihnen ist die tiefenweise Faltungsschicht eine tiefenseparierbare Faltung, die aus zwei Teilen besteht, nämlich der tiefenweisen (DW) Faltung und der punktweisen (PW) Faltung; jeder Faltungskern der DW-Faltung wird nur für die entsprechende Merkmalskarte berechnet, was jedoch die Informationsinteraktion zwischen den Merkmalspixeln der verschiedenen Schichten schwächen kann, was zu einem Genauigkeitsverlust führen kann; Die PW-Faltung ist eine 1x1-Faltung mit n-Kanal-Ausgang, die darauf abzielt, die fehlende Interaktion zwischen den Merkmalen bei der DW-Faltung zu kompensieren.
Durch Punkt-zu-Punkt-Multiplikations- und Additionsoperationen ist die PW-Faltung in der Lage, die Informationen verschiedener Merkmalskarten zu kombinieren, um die Interaktion zwischen den Merkmalen zu verbessern;
Unter der Annahme, dass die Größe der Eingabe-Merkmalskarte D, xD, xC | die Größe des Faltungs-Kernels D, x D, xC und die Größe der Ausgabe-Merkmalskarte D, xD, XC ut ist, wird die Anzahl der Parameter der Standard-Faltungsschicht in der folgenden Gleichung dargestellt:
Bondar = (D, X D, x C) ’ Co Gleichung (1)
Dabei steht C für die Anzahl der Eingangsmerkmalskanäle, C, für die Anzahl der Ausgangsmerkmalskanäle und die Anzahl der Faltungskerne;
Darüber hinaus ist die Tiefenfaltung in der tiefenseparierbaren Faltung für die Filterung, Größe D), x D, x1 , C insgesamt, verantwortlich, die auf jeden Kanal des Eingangs wirkt, und die punktweise Faltung ist für die Transformation der Kanäle, Größe 1x1xC, Cut insgesamt, verantwortlich, die auf das Ausgangs-Feature-Mapping der Tiefenfaltung wirkt;
Die Anzahl der tiefenseparierbaren Faltungsparameter ist durch die folgende Gleichung gegeben.
Pheptinvise = (D, x D, x 1) xC+1x1xCxC 7 leich 2 =D, x D, xC+CxC,, Gleichung (2) Das Verhältnis zwischen der Anzahl der Deep Convolutional-Parameter und der Anzahl der Standard-Convolutional-Parameter beträgt: Prepihwise D, x D, xC+CxC Psrandard (D, x D, X C) ) Cu Ha Gleichung (3 Cut D, x D, AG ung ( )
Die Stammschicht besteht aus einer 3 x 3-Faltung mit einer Schrittweite von 2, einer tiefeh/601503 separierbaren Faltung und einer DW-Faltung mit einer Schrittweite von 2, die fiir die Hoch- und Herunterskalierung des Eingangsbildes verwendet wird, wie in der folgenden Gleichung dargestellt:
Coma 411 | 3a 33 W (h/4,w/4,01) — DS 1 (Di = (Mae) ))| Gleichung (4)
Wie in Gl. gezeigt, wobei w die Merkmalsgewichtung ist und D das in der Tiefe trennbare Volumen darstellt; unter der Annahme, dass die Eingangsdimensionen H und W sind, wobei H die Bildhôhe und W die Bildbreite ist, ist die Ausgangsmerkmalsdimension der Stammschicht H/4xW/4xC1, wobei C1 die Anzahl der Kanäle nach der Hochskalierung ist;
Die Stufenschicht wird durch RepLK Block und ConvFFN gestapelt; RepLK Block enthält die Normalisierungsschicht, 1x1-Faltung und tiefenseparierbare Faltung sowie wichtige Restverbindungen; ConvFFN verwendet 1x1-Faltung anstelle von vollständig verbundenen Schichten und Restverbindungen zwischen den Schichten; die Ubergangsschicht verwendet hauptsächlich PW-Faltung und DW-Faltung mit einer Schrittgröße von 2 für das Downsampling von Bildern;
Darüber hinaus ermöglicht die Verwendung eines Backbone-Netzes mit großen Kernen ein größeres sensorisches Sichtfeld mit weniger Schichten und gleichzeitig eine höhere Formabweichung, wie in der folgenden Gleichung dargestellt:
RF, = RE, xS,+(K,~1) Gleichung (5)
Die obige Gleichung ist die Formel für die Berechnung des sensorischen Feldes, wobei RF, die Größe des sensorischen Feldes der n-ten Schicht, RF,, die Größe des sensorischen Feldes der n-1-ten Schicht, S, die SchrittgroBBe der n-ten Schicht und X, die Größe des Faltungs-Kernels der n-ten Schicht ist;
Schritt 2.3: Volldimensionales dynamisches Faltungsmodul für die Merkmalsfusion Die
Netzstruktur ist wie folgt:
Die Implementierung der volldimensionalen dynamischen Faltung ist unten dargestellt:
Kod out = xy (a, © ag © a, © a, © W) Gleichung (7) i=1
In der obigen Gleichung sind «,,, «,, , und «, die Aufmerksamkeitskoeffizienten des Fusionskerns im Raum, der Kanal, das Faltungsfilter bzw. der Faltungskern;
Die volldimensionale Merkmalsfusion (ODC2F) ist wie folgt:
Die Gleichungen sind wie folgt spezifiziert:
1x1 Fou =r (M ot oF,) Gleichung (8) 1x1 3x3 3x3 Mo =f. pale: (F5, (E )) + oF, | Gleichung (9)
; ; ; ; ; LU601503 In der obigen Gleichung ist F, das Fingangsmerkmal, F,, ist das Ausgangsmerkmal, 7 ist 1, wenn der Engpass wahr ist, andernfalls ist es 0, À ist die Anzahl der Merkmalsfusionsmodule und w@ ist der Restgewichtsverzerrungskoeffizient, Sein Modul kann aufgrund des relativ begrenzten Informationsaustauschs zwischen den Merkmalskarten zu einer schlechten Zielerkennungsgenauigkeit führen, während die ODC2F-Formel wie folgt angegeben wird: , I (à f" Fy = FC (M oT OF, ) Gleichung (10) 1 _ gl] 3x3 3x3 M,= Jar (al (0; (E, ))) +TH, I Gleichung (11) In der obigen Gleichung ist F’, das Ausgangsmerkmal; <7; ist die im vorherigen Abschnitt beschriebene volldimensionale dynamische Faltung; Schritt 2.4: Erwartungsmaximierung Dynamischer Faltungsaufmerksamkeitsmechanismus Das EM-DCA-Netz ist wie folgt aufgebaut: . . Cx HW . . Lassen Sie das Eingangsmerkmal FeR , C den Eingangskanal, H und W die Lange bzw. die Breite des Eingangsmerkmals bezeichnen und unterteilen Sie das Merkmal F in G Untermerkmale entlang der Kanaldimension, G<<C, dann kann F wie folgt ausgedrückt werden: ClIGxHxW F=[F.F, FF eR Gleichung (12) Der EM-DCA-Aufmerksamkeitsmechanismus hat vier Zweige, in denen drei parallele Pfade die Beschreibung der Aufmerksamkeitsgewichte der gruppierten Merkmalskarte extrahieren; zwei 1x1-Zweige und ein 3x3-Zweig, Zwei der globalen Durchschnittspools werden verwendet, um Kanäle entlang zweier räumlicher Richtungen im 1x1-Zweig zu kodieren, und eine volldimensionale dynamische Faltung ist im 3x3-Zweig enthalten, um multiskalige Merkmalsdarstellungen zu erfassen; Die beiden parallelen 1D-Merkmalscodierungsvektoren teilen sich eine 1x1-Faltung, so dass das Modell lokale kanalübergreifende Interaktionen erfassen kann, und die Formel für die Codierung globaler Informationen auf der Höhe H in Richtung der horizontalen Dimension von Kanal C lautet: P*(H)=L 3 x (Hi) Gleichung (13) W O<isW Die gepoolte Leistung entlang des Kanals C bei der Breite W ist gegeben durch: P'(w)=+ X x (JW) Gleichung (14) H oz j<H Die globalen räumlichen Informationen werden in der Ausgabe des 1x1-Zweigs kodiert, indem das 2D Global Average Pooling verwendet wird, um die Ausgabe des kleinsten Zweigs in . . . 1xG Cl/GxHW . . die entsprechende dimensionale Form R X R, zu transformieren, die durch Gleichung gegeben 1st:
How LU601503 P= ow 2200) Gleichung (15) SchlieBlich wird der Ausgang jedes Zweiges als Aufmerksamkeitsgewichtungswert berechnet, der mit der globalen semantischen Information kombiniert wird, um den Fokusbereich zu erfassen.
4. Das Verfahren zur Identifizierung von Defekten in eisbedeckten Isolatoren mit dem Faltungsnetzwerk LDKA-NET nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt 3 insbesondere gemäß den folgenden Schritten durchgeführt wird: Schritt 3.1: Eingabe des in Schritt 1.4 aufgeteilten Trainingssatzes von Bildern in das in Schritt 3 erhaltene LDKA-NET-Netzmodell zum Trainieren, Einstellen der batch_size auf 16, Verwenden des stochastischen Gradientenabstiegs mit einem Impuls von 0,9, Trainieren von 400 Runden und Erhalten der Trainingsergebnisse; Schritt 3.2: Validierung des LDKA-NET-Netzmodells anhand des Validierungssatzes, Ermittlung der Validierungsergebnisse und Analyse der Unterschiede zwischen den Trainingsergebnissen und den Validierungsergebnissen, z. B. ob sie überangepasst oder unterangepasst sind; Wenn eine Überanpassung vorliegt, bedeutet dies, dass das Modell im Trainingsset gut, im Validierungsset jedoch schlecht abschneidet, dh. die Generalisierungsfähigkeit des Modells ist schlecht, was durch eine Erhöhung der Anzahl der Bilder im Trainingsset, eine Verringerung der Komplexität des Modells und eine Feinabstimmung der Hyperparameter gelöst werden muss; wenn eine Unteranpassung vorliegt, bedeutet dies, dass das Modell im Trainingsset und im Validierungsset schlecht abschneidet, was durch eine Erhöhung der Komplexität des Modells, eine Feinabstimmung der Hyperparameter und das Hinzufügen weiterer Zielmerkmalmethoden gelöst werden muss; Schritt 3.3: Das optimierte LDKA-NET-Netzmodell wird durch Anpassung der Hyperparameter des LDKA-NET-Netzmodells auf dem Validierungssatz, Feineinstellung der Lernrate auf 0,003 für eine bessere Robustheit und Einstellung der batch_size auf 16 erhalten; wobei die Hyperparameter die Parameter sind, die manuell eingestellt werden müssen, bevor das Modell trainiert wird.
5. Das Verfahren zur Identifizierung von Defekten in eisbedeckten Isolatoren mit dem Faltungsnetzwerk LDKA-NET nach Anspruch 1, wobei der Schritt 4 insbesondere gemäß den folgenden Schritten durchgeführt wird: Schritt 4.1: Eingabe des Testsatzes in den beschriebenen Schritt 3.3, um das optimierte LDKA-NET-Modell zu erhalten; der Optimierungsprozess ist wie folgt spezifiziert: Einstellung der Hyperparameter des LDKA-NET-Netzmodells: Pixelgröße des Eingangsbildes 640*640, 150 Runden Freeze-Training, batch size32, 250 Runden Unfreeze-Training, batch _size4, num_workers2, Adam-Optimierer, Decay-Gewichtskoeffizienten 5*10- 4, anfängliche Lernrate 1* 10- 5 und Einstellung des IoU-Schwellenwerts auf 0,5 für das Experiment beim Testen des Testsatzes. Während der Validierung wird die Lernrate zur Verbesserung der Robustheit auf 0,003 feinabgestimmt, die batch size wird auf 32 gesetzt, die ersten 150 Trainingsrunden werden eingefroren und der Verlust nimmt schnell ab, die nächsten 250 Runden werden aufgetaut und das Netz wird kontinuierlich feinabgestimmt, und die Verluständerung in der Validierungsmenge nimmt nach 350 Runden von insgesamt 400 Runden allmählich ab, um das optimierte LDKA- NET-Modell zu erhalten; Schritt 4.2: Testen Sie die Leistung des optimierten LDKA-NET-Modells anhand des Testsatzes, um die Erkennungsergebnisse zu erhalten.
LU601503A 2024-08-29 2025-05-08 Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET LU601503B1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411198821.0A CN119169423A (zh) 2024-08-29 2024-08-29 基于卷积网络ldka-net的绝缘子覆冰识别检测方法

Publications (1)

Publication Number Publication Date
LU601503B1 true LU601503B1 (de) 2025-11-10

Family

ID=93890391

Family Applications (1)

Application Number Title Priority Date Filing Date
LU601503A LU601503B1 (de) 2024-08-29 2025-05-08 Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET

Country Status (2)

Country Link
CN (1) CN119169423A (de)
LU (1) LU601503B1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120803031B (zh) * 2025-08-20 2026-04-21 杭州继高电力技术有限公司 一种基于配网架空线路设备的无人机自主巡检处理方法

Also Published As

Publication number Publication date
CN119169423A (zh) 2024-12-20

Similar Documents

Publication Publication Date Title
DE102023130722A1 (de) Ein System und Verfahren zur Bilderkennung von Isolatoren eines Wasserkraftwerks
DE112018006337T5 (de) Verfahren und System zum Klassifizieren eines Objekts von Interesse unter Verwendung eines künstlichen neuronalen Netzes
DE112018000349T5 (de) Visuelles Analysesystem für auf einem konvolutionalen neuronalen Netz basierte Klassifizierer
DE202017102381U1 (de) Vorrichtung zum Verbessern der Robustheit gegen &#34;Adversarial Examples&#34;
LU601503B1 (de) Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET
DE102021201124A1 (de) Trainieren von bildklassifizierernetzen
EP0252096A1 (de) Verfahren zur mustererkennung.
DE112021002453T5 (de) Iteratives trainieren eines modells für maschinelles lernen
DE112017007492T5 (de) System und Verfahren zur Erfassung von Objekten in einem digitalen Bild und System und Verfahren zur Neubewertung von Objekterfassungen
CN116385950B (zh) 一种小样本条件下电力线路隐患目标检测方法
DE102021128523A1 (de) Hierarchische bildzerlegung zur defekterkennung
Chen et al. Multi-scale attentive fusion network for remote sensing image change captioning
EP2064672A2 (de) Verfahren und vorrichtung zur bildverarbeitung
DE202025105629U1 (de) Ein System zur Klassifizierung von Apfelblattkrankheiten mittels Deep Learning und Merkmalsfusion
DE102023202598A1 (de) Computerimplementiertes Verfahren und System zum Trainieren eines Lehrernetzwerks eines teilüberwachten Lernalgorithmus
DE102023106947A1 (de) Ein auf eine AR-Vorrichtung angewandtes Steuerungsverfahren der Augmented Reality (AR), eine AR-Steuerungsvorrichtung, ein elektronisches Gerät und ein computerlesbares Speichermedium
CN114139614B (zh) 一种基于典型相关分析特征提取的Fisher光伏组件热斑诊断方法和系统
DE202025101709U1 (de) Ein System zur Echtzeit-Verkehrszeichenerkennung für automatische Fahrsysteme
DE102013224382A1 (de) Beschleunigte Objekterkennung in einem Bild
DE112022007491T5 (de) Verfahren und einrichtung für kontinuierliches lernen von aufgaben
DE102024205001A1 (de) Verfahren und Vorrichtung zum Verringern einer Netzwerkdimension eines Basismodells
DE102024211705A1 (de) Verfahren und vorrichtung, gerät, fahrzeug und medium zum erzeugen eines klassifizierungsmodells
DE202023105416U1 (de) Ein intelligentes System zur Vorhersage der Solarstrahlung
DE112021008422T5 (de) Verfahren zur Bestimmung von ersten und zweiten abgebildeten Zielmerkmalen, die einem realen Zielmerkmal in einer mikroskopischen Probe entsprechen, und Implementierungsmittel
LU506063B1 (de) Ein verfahren zur automatischen klassifizierung von zellen in gebärmutterhalsflüssigkeit

Legal Events

Date Code Title Description
FG Patent granted

Effective date: 20251110