LU601503B1

LU601503B1 - Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET

Info

Publication number: LU601503B1
Application number: LU601503A
Authority: LU
Inventors: Jinlu Hu; Meicen Liu; Yuan Lei; Chenyu Wang; Xiaobei Zhang; Wei Shen; Yonghua Du; Rui Pan; Chao Gao
Original assignee: Huaneng New Energy Co Ltd Shaanxi Branch
Priority date: 2024-08-29
Filing date: 2025-05-08
Publication date: 2025-11-10
Also published as: CN119169423A

Abstract

Die vorliegende Erfindung offenbart ein Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET. Erstens wird ein Faltungsmodul für ein weites Sichtfeld vorgeschlagen, das einen größeren Faltungskern verwendet, um die Wahrnehmungsfähigkeit des Netzwerks und die Verallgemeinerungsfähigkeit zu verbessern und sich besser an komplexe Übertragungsleitungsszenarien anzupassen. Zweitens wird ein volldimensionales dynamisches Faltungsnetzwerk zur Merkmalsfusion vorgeschlagen. Schließlich wird der Mechanismus der erwartungsmaximierenden dynamischen Faltungsaufmerksamkeit verwendet, um sich auf die wichtigen Informationen in den Eingabedaten zu konzentrieren und diese zu nutzen, was dem Modell hilft, seine Aufmerksamkeit besser auf die wichtigen Ziel- oder Szenenteile zu lenken und eine verallgemeinerte Merkmalsdarstellung zu erlernen, was die Generalisierungsfähigkeit und Robustheit des Modells verbessert und die Position des Ziels genauer lokalisiert.

Description

Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf dé&J601503

Grundlage eines Faltungsnetzwerks LDKA-NET

Technischer Bereich

Die vorliegende Erfindung gehort zum Gebiet der elektrischen Energietechnik und bezieht sich insbesondere auf das Verfahren zur Identifizierung und Erkennung von eisbedeckten

Isolatoren in Ubertragungsleitungen.

Technologie im Hintergrund

Angesichts der steigenden Nachfrage nach und Abhängigkeit von Elektrizität in der modernen Gesellschaft ist der sichere und stabile Betrieb von Ubertragungsleitungen als wichtiger

Kanal für die Stromübertragung besonders wichtig. Eine große Anzahl von Isolatoren muss jedoch zwangsläufig durch hochgelegene, stark vereiste Gebiete mit komplexen Umgebungen verlaufen und ist dem Feld das ganze Jahr über ausgesetzt. In Verbindung mit der allmählichen

Verschlechterung der klimatischen Bedingungen in den letzten Jahren treten von Zeit zu Zeit Dunst,

Bewölkung und Regen, Frost und Schnee auf, so dass sich die Isolatoren im Wetter befinden, die

Geografie der Umgebung wird immer komplexer, und es ist sehr einfach, die Isolatoren in den eisbedeckten, defekten, Uberschligen usw. auftreten zu lassen, was ein ernsthaftes

Sicherheitsrisiko fiir den Betrieb des Stromnetzes darstellt. Gleichzeitig verursacht dies auch erhebliche Verluste für die Sozialwirtschaft.

Um Probleme mit Isolatoren rechtzeitig zu erkennen und zu lösen und die Sicherheit und

Zuverlässigkeit von Übertragungsleitungen zu verbessern, ist die Technologie zur Überwachung von Isolatoren zu einem der Schwerpunkte in der Energiebranche geworden. Durch die

Echtzeitüberwachung von Isolatorstatus und -leistung können Isolatoranomalien rechtzeitig erkannt und entsprechende Reparatur- und Austauschmaßnahmen ergriffen werden, um den sicheren Betrieb von Übertragungsleitungen zu gewährleisten.

Zu den derzeitigen Methoden zur Erkennung von Isolatordefekten gehören Ultraschall,

Infrarot-Wärmebildtechnik, Vibration, Teilentladung, Sichtprüfung und andere technische Mittel.

Ultraschall erfordert professionelle Ausrüstung und Bediener, hohe Kosten; Infrarot-Wärmebild-

Erkennung durch Umweltfaktoren, unempfindlich gegen bestimmte Defekte, kann nicht direkt erkennen, der Isolator internen Probleme; Vibration Erkennung durch die externe Interferenz, begrenzte Genauigkeit; Teilentladung Erkennung Ausrüstung ist komplex, erfordert professionelle

Bedienung, hohe Kosten. Die visuelle Inspektion hingegen ist einfach und intuitiv zu bedienen und kann offensichtliche Defekte auf der Isolatoroberfläche schnell erkennen.

Die derzeitigen Methoden zur Erkennung visueller Isolatordefekte lassen sich in zwei

Haupttypen unterteilen: auf maschinellem Lernen basierende Bildverarbeitungsalgorithmen und auf Deep Learning basierende Algorithmen. Bildverarbeitungsalgorithmen mit maschinellem

Lernen umfassen in der Regel die Extraktion von Merkmalen und die Klassifizierung von Bildern.

Zunächst werden Bilddaten von der Isolatoroberfläche erfasst, und dann werden die

Merkmalsinformationen im Bild mit Techniken wie Kantenerkennung, Farbanalyse und

Formabgleich extrahiert. Schließlich werden die extrahierten Merkmale mit Hilfe von Methoden wie Support Vector Machines und Random Forests klassifiziert und identifiziert, um festzustellen, ob Defekte an den Isolatoren vorhanden sind.

Basierend auf dem Deep-Learning-Algorithmus werden tiefe neuronale Netze verwendet, um die Originalbilder durchgängig zu lernen und zu verarbeiten. Durch den Aufbau von Modellen wie

Deep Convolutional Neural Network (CNN) und Recurrent Neural Network (RNN) werden

Merkmale und Muster direkt aus den Bilddaten erlernt, um eine automatische Erkennung und

Identifizierung von Isolatordefekten zu erreichen. LU601503

Die bestehenden Algorithmen berücksichtigen jedoch nicht das Problem der unzureichenden

Erfassung lokaler Details aufgrund des kleinen sensorischen Sichtfelds, was zur Vernachlässigung der globalen Kontextinformationen führen kann. Zweitens ist die Tiefe des bestehenden

Netzwerkmodells noch immer gering, so dass Bilder mit besonders komplexen

Umgebungshintergründen oder verdeckten Zielen nur begrenzt extrahiert werden können.

Aufgrund des komplexen Hintergrunds von Freileitungen und der Einzelbetrachtung an verschneiten Tagen stören die Hintergrundinformationen die Defekterkennung, während einige

Isolatoren in geringem Umfang gebrochen sind und der gebrochene Teil weniger Pixel im

Originalbild einnimmt.

Inhalt der Erfindung

Die vorliegende Erfindung schlägt ein Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET vor, um das

Problem der geringen Genauigkeit der Zielerkennung in komplexen Umgebungen zu lösen.

Die technische Lösung der vorliegenden Erfindung besteht darin, dass das Verfahren zur

Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines

Faltungsnetzwerks LDKA-NET in Übereinstimmung mit den folgenden Schritten implementiert wird:

Schritt 1: Sammeln von Bilddaten von defekten, eisbedeckten Isolatoren auf einer

Ubertragungsleitung, Kennzeichnung und Aufteilung des Datensatzes in einen Trainingssatz, einen Validierungssatz und einen Testsatz;

Schritt 2: Aufbau eines LDKA-NET-Netzwerkmodells mit Faltungsnetzwerken;

Schritt 3: Eingabe der Bilder des Trainingssatzes in das LDKA-NET-Netzwerkmodell des

Faltungsnetzwerks zum Training und Erhalt eines optimierten LDKA-NET-Netzwerkmodells durch Training;

Schritt 4: Eingabe der Bilder im Testsatz in das optimierte LDKA-NET-Netzwerkmodell zur

Erkennung und Erhalt einer Karte der Defekterkennungsergebnisse des eisbedeckten Isolators.

Der besagte Schritt 1 wird insbesondere in Übereinstimmung mit den folgenden Schritten durchgeführt:

Schritt 1.1: Aufnehmen einer großen Anzahl von Inspektionsvideos, einschließlich Bildern von mit Eis bedeckten Isolatoren von Übertragungsleitungen in verschiedenen komplexen

Hintergründen, sowie Bildern, die Fern-, Nah- und Großaufnahmen umfassen, durch eine von der

Drohne getragene Hochauflösungskamera, und Beibehalten einer konsistenten Anzahl von Bildern von jeder Art von mit Eis bedeckten Isolatoren;

Schritt 1.2: Drehen, Spiegeln, Skalieren und beliebiges Beschneiden der in Schritt 1.1 erhaltenen Bilder der eisbedeckten Isolatoren, wodurch die erweiterten Bilder der eisbedeckten

Isolatoren erhalten werden;

Schritt 1.3: Nehmen Sie die Summe des in Schritt 1.1 erhaltenen Bildes des eisbedeckten

Isolators und des in Schritt 1.2 erhaltenen erweiterten Bildes des eisbedeckten Isolators als eine

Bibliothek von Beispielbildern des eisbedeckten Isolators und erstellen Sie eine entsprechende

Beschriftungsdatei für jedes Beispielbild in der Bibliothek von Beispielbildern des eisbedeckten

Isolators. Die Beschriftungsdatei entspricht dem xml-Beschriftungsdateistandard des Pascal VOC-

Formats, und die xml-Beschriftungsdatei enthält die Bild-ID, den Bildpfad, den Bildnamen und die Pixelhöhe und -breite des Bildes, wobei die Pixelhöhe und -breite des Bildes durch die vier

Koordinaten eines rechteckigen Kastens dargestellt werden, die X_. , Ymin> Xmax> Ymax Sind,

wobei (Xmin> Ymin ) die Koordinaten der oberen linken Eckpunkte des rechteckigen Kastens und (Xmnax > Ymax ) die Koordinaten der unteren rechten Eckpunkte des rechteckigen Kastens sind;

Schritt 1.4: Aufteilung der in Schritt 1.3 erhaltenen Bildbibliothek von eisbedeckten

Isolatorproben in einen Trainingssatz, einen Validierungssatz und einen Testsatz im Verhältnis 81:1.

Der besagte Schritt 2 wird insbesondere in Ubereinstimmung mit den folgenden Schritten durchgeführt:

Schritt 2.1: Einrichtung eines Faltungsnetzwerks LDKA-NET-Netzwerkmodells, das vier

Teile umfasst: Bildvorverarbeitung, Backbone-Netzwerk (Backbone),

Merkmalsextraktionsnetzwerk (Neck) und Vorhersagenetzwerk (Head);

Schritt 2.2: die Struktur des Weitbereichs-Sichtfeld-Faltungs-Backbone-Netzwerks ist wie folgt:

Das Wide Field der View Convolutional Backbone Network besteht aus vier Hauptstufen, die jeweils eine Ausgangsschicht (stem), eine Stufenschicht (Stage) und eine

Ubergangsfaltungsschicht (Transition) enthalten; unter ihnen ist die tiefenweise Faltungsschicht eine tiefenseparierbare Faltung, die aus zwei Teilen besteht, nämlich der tiefenweisen (DW)

Faltung und der punktweisen (PW) Faltung; jeder Faltungskern der DW-Faltung wird nur für die entsprechende Merkmalskarte berechnet, was jedoch die Informationsinteraktion zwischen den

Merkmalspixeln der verschiedenen Schichten schwächen kann, was zu einem Genauigkeitsverlust führen kann; Die PW-Faltung ist eine 1x1-Faltung mit n-Kanal-Ausgang, die darauf abzielt, die fehlende Interaktion zwischen den Merkmalen bei der DW-Faltung zu kompensieren. Durch

Punkt-zu-Punkt-Multiplikations- und Additionsoperationen ist die PW-Faltung in der Lage, die

Informationen verschiedener Merkmalskarten zu kombinieren, um die Interaktion zwischen den

Merkmalen zu verbessern;

Unter der Annahme, dass die Größe der Eingabe-Merkmalskarte D, xD, xC | die Größe des Faltungs-Kernels D, x D, xC und die Größe der Ausgabe-Merkmalskarte D, xD, XC ut ist, wird die Anzahl der Parameter der Standard-Faltungsschicht in der folgenden Gleichung dargestellt:

Ferandard — (D, X D, X C) ’ Cou Gleichung (1)

Dabei steht C für die Anzahl der Fingangsmerkmalskanäle, C, für die Anzahl der

Ausgangsmerkmalskanäle und die Anzahl der Faltungskerne;

Darüber hinaus ist die Tiefenfaltung in der tiefenseparierbaren Faltung für die Filterung,

Größe D), x D, x1 , C insgesamt, verantwortlich, die auf jeden Kanal des Eingangs wirkt, und die punktweise Faltung ist für die Transformation der Kanäle, Größe 1x1xC, Cut insgesamt, verantwortlich, die auf das Ausgangs-Feature-Mapping der Tiefenfaltung wirkt;

Die Anzahl der tiefenseparierbaren Faltungsparameter ist durch die folgende Gleichung gegeben.

Prepinwise =(D, x D, x1)xC+1x1xCxC =D, x D, xC+CxC,, Gleichung (2)

Das Verhältnis zwischen der Anzahl der Deep Convolutional-Parameter und der Anzahl der

Standard-Convolutional-Parameter beträgt:

Prepihwise D, x D, xC+CxC

Psrandard (D, x D, X C) ) Cu

SL Gleichung (3

Ca" D,xD, eichung (3)

Auf dieser Grundlage kann die Verwendung der tiefen-separierbaren Faltung das Problem der steigenden Anzahl von Parametern und FlieBkomma-Operationen aufgrund der Verwendung eines großen Faltungs-Kernels lösen. Die Stammschicht besteht aus einer 3 x 3-Faltung mit einer

Schrittgröße von 2, einer tiefen-separierbaren Faltung und einer DW-Faltung mit einer

Schrittgröße von 2, die für die Hoch- und Herunterskalierung des Eingangsbildes verwendet wird, wie in der folgenden Gleichung dargestellt: \ Coma 411 | 3a 33

W (h/4,w/4,c1) — D. 1 (Di = (Mae) ))| Gleichung (4)

Wie in Gl. gezeigt, wobei w die Merkmalsgewichtung ist und D das in der Tiefe trennbare

Volumen darstellt; unter der Annahme, dass die Eingangsdimensionen H und W sind, wobei H die

Bildhohe und W die Bildbreite ist, ist die Ausgangsmerkmalsdimension der Stammschicht

H/4xW/4xC1, wobei C1 die Anzahl der Kanäle nach der Hochskalierung ist;

Die Stufenschicht wird durch RepLK Block und ConvFFN gestapelt; RepLK Block enthält die Normalisierungsschicht, 1x1-Faltung und tiefenseparierbare Faltung sowie wichtige

Restverbindungen; ConvFFN verwendet 1x1-Faltung anstelle von vollständig verbundenen

Schichten und Restverbindungen zwischen den Schichten; die Ubergangsschicht verwendet hauptsächlich PW-Faltung und DW-Faltung mit einer Schrittgröße von 2 für das Downsampling von Bildern;

Darüber hinaus ermöglicht die Verwendung eines Backbone-Netzes mit großen Kernen ein größeres sensorisches Sichtfeld mit weniger Schichten und gleichzeitig eine höhere

Formabweichung, wie in der folgenden Gleichung dargestellt:

RF, = RE, xS,+(K,~1) Gleichung (5)

Die obige Gleichung ist die Formel fiir die Berechnung des sensorischen Feldes, wobei RF, die Größe des sensorischen Feldes der n-ten Schicht, RF,, die Größe des sensorischen Feldes der n-1-ten Schicht, S, die SchrittgroBBe der n-ten Schicht und X, die Größe des Faltungs-Kernels der n-ten Schicht ist;

Schritt 2.3: Volldimensionales dynamisches Faltungsmodul für die Merkmalsfusion Die

Netzstruktur ist wie folgt:

Die Implementierung der volldimensionalen dynamischen Faltung ist unten dargestellt:

n LU601503

Kod out = xy (a, © ag © a, © a, © W) Gleichung (7) i=l

In der obigen Gleichung sind «,,, a, , 2, und «, die Aufmerksamkeitskoeffizienten des

Faltungskerns im Raum, im Kanal, im Faltungsfilter bzw. im Faltungskern. Die vier Arten von

Aufmerksamkeitsgewichten ermöglichen Faltungsoperationen fiir alle räumlichen Positionen 5 verschiedener Eingaben, alle Eingangskanäle, alle Filter und alle Kerne und bieten

Leistungsgarantien fiir die Erfassung umfangreicher kontextueller Hinweise.

Die volldimensionale Merkmalsfusion (Optimised Dynamic Convolution Coarse-to-Fine,

ODC2F) läuft wie folgt ab:

Es ist notwendig, die Gewichte und Verzerrungen der Merkmalsfusion zu erlernen, wodurch eine große Anzahl zusätzlicher Parameter eingeführt wird, die das Risiko einer Uberanpassung mit sich bringen können, wie in der folgenden Formel angegeben: 1x1

FE, = F4 (M,+0F,) Gleichung (8) _ ll 3x3 3x3

M,= fa pale: (F5, (E )) + oF, | Gleichung (9)

In der obigen Gleichung ist F, das Eingangsmerkmal, F,, ist das Ausgangsmerkmal, 7 ist 1, wenn der Engpass wahr ist, andernfalls ist es 0, À ist die Anzahl der

Merkmalsfusionsmodule und w@ ist der Restgewichtsverzerrungskoeffizient, Sein Modul kann aufgrund des relativ begrenzten Informationsaustauschs zwischen den Merkmalskarten zu einer schlechten Zielerkennungsgenauigkeit führen, während die ODC2F-Formel wie folgt angegeben wird: , I (à f"

Fy = FC (M oT OF, ) Gleichung (10) 1 _ gl] 3x3 3x3

M,= Jar (al (0; (E, ))) +TH, I Gleichung (11)

In der obigen Gleichung ist F’, das Ausgangsmerkmal; <7; ist die im vorherigen

Abschnitt beschriebene volldimensionale dynamische Faltung; Das Erlernen von

Aufmerksamkeitsmerkmalen durch volldimensionale dynamische Faltung unter Verwendung einer parallelen Strategie für die vier Dimensionen des Faltungs-Kernraums bietet eine bessere

Leistung bei der Erfassung umfangreicher kontextueller Informationen.

Schritt 2.4: Erwartungsmaximierung Dynamischer Faltungsaufmerksamkeitsmechanismus

Das EM-DCA-Netz ist wie folgt aufgebaut: . . Cx HW . . ..

Lassen Sie das Eingangsmerkmal FeR , C den Eingangskanal, H und W die Länge bzw. die Breite des Eingangsmerkmals bezeichnen und unterteilen Sie das Merkmal F in G

Untermerkmale entlang der Kanaldimension, G<<C, dann kann F wie folgt ausgedriickt werden:

ClIGxHxW

F=[F.F, FF eR Gleichung (12)

Der EM-DCA-Aufmerksamkeitsmechanismus hat vier Zweige, in denen drei parallele Pfad&}601503 die Beschreibung der Aufmerksamkeitsgewichte der gruppierten Merkmalskarte extrahieren; zwei 1x1-Zweige und ein 3x3-Zweig, Zwei der globalen Durchschnittspools werden verwendet, um

Kanäle entlang zweier räumlicher Richtungen im 1x1-Zweig zu kodieren, und eine volldimensionale dynamische Faltung ist im 3x3-Zweig enthalten, um multiskalige

Merkmalsdarstellungen zu erfassen;

Die beiden parallelen 1D-Merkmalscodierungsvektoren teilen sich eine 1x1-Faltung, so dass das Modell lokale kanalübergreifende Interaktionen erfassen kann, und die Formel für die

Codierung globaler Informationen auf der Hôhe H in Richtung der horizontalen Dimension von

Kanal C lautet:

P*(H)=L 3 x (Hi) Gleichung (13)

W 0<i<W

Die gepoolte Leistung entlang des Kanals C bei der Breite W ist gegeben durch:

PY (W)=L S x (J) Gleichung (14)

H oz j<H

Der 3x3-Zweig erfasst lokale kanalübergreifende Interaktionen durch Faltung, um den

Merkmalsraum zu erweitern.

Das Cross-Spatial-Learning schafft Abhängigkeiten zwischen Kanälen und Räumen für eine reichhaltigere Merkmalsaggregation. Globale räumliche Informationen werden in der Ausgabe des 1x1-Zweiges mit Hilfe von 2D Global Average Pooling kodiert, und die Ausgabe des kleinsten 1xG CHGxHW .

Zweiges wird in die entsprechende dimensionale Form R X R, umgewandelt, die durch Gleichung gegeben ist: 1 H W

P= ow 22) Gleichung (15)

SchlieBlich wird der Ausgang jedes Zweiges als Aufmerksamkeitsgewichtungswert berechnet, der mit der globalen semantischen Information kombiniert wird, um den Fokusbereich zu erfassen.

Der beschriebene Schritt 3 wird gemäß den folgenden Schritten durchgeführt:

Schritt 3.1: Eingabe des in Schritt 1.4 aufgeteilten Trainingssatzes von Bildern in das in

Schritt 3 erhaltene LDKA-NET-Netzmodell zum Trainieren, Einstellen der batch size auf 16,

Verwenden des stochastischen Gradientenabstiegs mit einem Impuls von 0,9, Trainieren von 400

Runden und Erhalten der Trainingsergebnisse;

Schritt 3.2: Validierung des LDKA-NET-Netzmodells anhand des Validierungssatzes,

Ermittlung der Validierungsergebnisse und Analyse der Unterschiede zwischen den

Trainingsergebnissen und den Validierungsergebnissen, z. B. ob sie überangepasst oder unterangepasst sind; Wenn eine Uberanpassung vorliegt, bedeutet dies, dass das Modell im

Trainingsset gut, im Validierungsset jedoch schlecht abschneidet, d.h. die

Generalisierungsfähigkeit des Modells ist schlecht, was durch eine Erhöhung der Anzahl der

Bilder im Trainingsset, eine Verringerung der Komplexität des Modells und eine Feinabstimmung der Hyperparameter gelöst werden muss; wenn eine Unteranpassung vorliegt, bedeutet dies, dass das Modell im Trainingsset und im Validierungsset schlecht abschneidet, was durch eine Erhöhung der Komplexität des Modells, eine Feinabstimmung der Hyperparameter und das Hinzufügen weiterer Zielmerkmalmethoden gelöst werden muss;

Schritt 3.3: Das optimierte LDKA-NET-Netzmodell wird durch Anpassung der

Hyperparameter des LDKA-NET-Netzmodells auf dem Validierungssatz, Feineinstellung db}/601503

Lernrate auf 0,003 für eine bessere Robustheit und Einstellung der batch_size auf 16 erhalten; wobei die Hyperparameter die Parameter sind, die manuell eingestellt werden müssen, bevor das

Modell trainiert wird.

Der besagte Schritt 4 wird insbesondere gemäß den folgenden Schritten durchgeführt:

Schritt 4.1: Eingabe des Testsatzes in den beschriebenen Schritt 3.3, um das optimierte

LDKA-NET-Modell zu erhalten; der Optimierungsprozess ist wie folgt spezifiziert: Einstellung der Hyperparameter des LDKA-NET-Netzmodells: Pixelgröße des Eingangsbildes 640*640, 150

Runden Freeze-Training, batch size32, 250 Runden Unfreeze-Training, batch _size4, num workers2, Adam-Optimierer, Decay-Gewichtskoeffizienten 5*10- 4, anfängliche Lernrate 1* 10- 5 und Einstellung des IoU-Schwellenwerts auf 0,5 für das Experiment beim Testen des

Testsatzes. Während der Validierung wird die Lernrate zur Verbesserung der Robustheit auf 0,003 feinabgestimmt, die batch size wird auf 32 gesetzt, die ersten 150 Trainingsrunden werden eingefroren und der Verlust nimmt schnell ab, die nächsten 250 Runden werden aufgetaut und das

Netz wird kontinuierlich feinabgestimmt, und die Verluständerung in der Validierungsmenge nimmt nach 350 Runden von insgesamt 400 Runden allmählich ab, um das optimierte LDKA-

NET-Modell zu erhalten;

Schritt 4.2: Testen Sie die Leistung des optimierten LDKA-NET-Modells anhand des

Testsatzes, um die Erkennungsergebnisse zu erhalten.

Die vorliegende Erfindung hat die folgenden vorteilhaften Auswirkungen

Zunächst wird das WFVC-Netzwerkmodul (Wide Field View Convolutional Network,

WFVC-Net) vorgeschlagen, das größere Faltungskerne verwendet, um die

Wahrnehmungsfähigkeit des Netzwerks und die Generalisierungsfähigkeit zu verbessern und sich besser an komplexe Ubertragungsleitungsszenen anzupassen. Gleichzeitig kann durch die

Verwendung eines CNN mit großem Kernel ein größeres effektives Wahrnehmungsfeld mit weniger Schichten erreicht werden, und gleichzeitig wird eine hôhere Formverzerrung erzielt, wodurch die Forminformationen im Bild besser erfasst werden kônnen.

Zweitens wird ein volldimensionales dynamisches Faltungsnetzwerk für die Merkmalsfusion vorgeschlagen. Im Vergleich zur traditionellen statischen Faltung kann dieses Papier die

Genauigkeit des CNN mit höherer Parametereffizienz und Merkmalsextraktionsfähigkeit erheblich verbessern, indem es eine lineare Kombination mehrerer Faltungskerne und deren inputbezogene Aufmerksamkeitsgewichtung lernt.

Schließlich wird der Mechanismus der dynamischen Faltungsaufmerksamkeit mit

Erwartungsmaximierung (Expectation Maximization Dynamic Convolutional Attention, EM-

DCA) verwendet, um sich auf wichtige Informationen in den Eingabedaten zu konzentrieren und diese zu nutzen, damit das Modell die Aufmerksamkeit besser zuordnen kann. Die Fokussierung auf wichtige Ziel- oder Szenenteile und das Erlernen einer verallgemeinerten Merkmalsdarstellung tragen dazu bei, die Generalisierungsfähigkeit und Robustheit des Modells zu verbessern und die

Position des Ziels genauer zu lokalisieren.

Beschreibung der beigefügten Zeichnungen

Bild 1 zeigt das Netzwerk-Strukturdiagramm des Verfahrens zur Identifizierung und

Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET, die aus vier Teilen besteht, nämlich, Bild-Vorverarbeitung, Backbone-Netzwerk (Backbone),

Feature-Extraktion Netzwerk (Hals) und Vorhersage-Netzwerk (Kopf);

Bild 2 zeigt die Struktur des Weitwinkel-Faltungs-Backbone-Netzes des erfindungsgemäßen

Algorithmus; LU601503

Bild 3 ist ein Strukturdiagramm des volldimensionalen dynamischen Faltungsmerkmal-

Fusionsnetzwerks der vorliegenden Erfindung;

Bild 4 ist ein Strukturdiagramm des erwartungsmaximierenden dynamischen

Faltungsaufmerksamkeitsmechanismus EM-DCA-Netzwerks der vorliegenden Erfindung;

Bild 5 ist ein Beispieldiagramm der Ergebnisse der Erkennung von eisbedeckten

Isolatordefekten im LDKA-NET-Faltungsnetzwerk LDKA-NET-basierten Verfahren zur

Identifizierung und Erkennung von eisbedeckten Isolatoren gemäß der vorliegenden Erfindung;

Bild 6 ist ein Beispieldiagramm der Ergebnisse der Erkennung von Defekten in eisbedeckten

Isolatoren bei Regen und Schnee in dem auf dem Faltungsnetzwerk LDKA-NET basierenden

Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren im Sinne der vorliegenden Erfindung;

Bild 7 ist ein Beispieldiagramm der Ergebnisse der Erkennung von Defekten eisbedeckter

Isolatoren bei klarem Wetter in dem auf dem Faltungsnetzwerk LDKA-NET basierenden

Verfahren zur Identifizierung und Erkennung eisbedeckter Isolatoren im Sinne der vorliegenden

Erfindung.

Detaillierte Beschreibung

Die vorliegende Erfindung wird im Folgenden in Verbindung mit den beigefügten

Zeichnungen und spezifischen Ausführungsformen detailliert beschrieben

Die vorliegende Ausführungsform des Verfahrens zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET wird in

Übereinstimmung mit den folgenden Schritten implementiert:

Schritt 1: Sammeln von Bilddaten von defekten, mit Eis bedeckten Isolatoren auf einer

Übertragungsleitung, Kennzeichnung und Aufteilung des Datensatzes in einen Trainingssatz, einen Validierungssatz und einen Testsatz;

Schritt 2: Aufbau eines LDKA-NET-Netzwerkmodells mit Faltungsnetzwerken;

Wobei Schritt 1 insbesondere in Übereinstimmung mit den folgenden Schritten durchgeführt wird:

Schritt 1.1: eine große Anzahl von Inspektionsvideos wird von einer hochauflösenden

Kamera, die von der UAV getragen wird, aufgenommen, einschließlich Bilder von mit Eis bedeckten Isolatoren der Übertragungsleitung in verschiedenen komplexen Hintergründen, sowie

Bilder, die Fern-, Nah- und Großaufnahmen umfassen, und Beibehaltung einer konsistenten

Anzahl von Bildern von jeder Art von mit Eis bedeckten Isolatoren;

Schritt 1.2: Drehen, Spiegeln, Skalieren und beliebiges Beschneiden der in Schritt 1.1 erhaltenen Bilder von eisbedeckten Isolatoren, wodurch die erweiterten Bilder von eisbedeckten

Isolatoren erhalten werden;

Isolators. Die Beschriftungsdatei entspricht dem xml-Beschriftungsdateistandard des Pascal VOEY601503

Formats, und die xml-Beschriftungsdatei enthält die Bild-ID, den Bildpfad, den Bildnamen und die Pixelhôhe und -breite des Bildes, wobei die Pixelhôhe und -breite des Bildes durch die vier

Koordinaten eines rechteckigen Kastens dargestellt werden, die X_.., Ymin> Xmax> Ymax Sind, wobei (Xpin> Ymin ) die Koordinaten der oberen linken Eckpunkte des rechteckigen Kastens und (Xmnax > Vmax ) die Koordinaten der unteren rechten Eckpunkte des rechteckigen Kastens sind;

Isolatorproben in einen Trainingssatz, einen Validierungssatz und einen Testsatz im Verhältnis 8:1:1.

Der besagte Schritt 2 wird insbesondere in Übereinstimmung mit den folgenden Schritten durchgeführt:

Schritt 2.1: Aufbau des LDKA-NET-Netzwerkmodells, das aus vier Teilen besteht:

Bildvorverarbeitung, Backbone-Netzwerk (Rückgrat), Merkmalsextraktionsnetzwerk (Hals) und

Vorhersagenetzwerk (Kopf); das WFVC-Netz verwendet einen größeren Faltungskern, um die

Wahrnehmungs- und Verallgemeinerungsfähigkeiten des Netzwerks zu verbessern und sich besser an die komplexen, mit Eis bedeckten Ubertragungsleitungen anzupassen. Die volldimensionale dynamische Faltung verbessert die Genauigkeit des CNN durch das Erlernen einer linearen

Kombination mehrerer Faltungskerne und die Gewichtung der eingabebezogenen

Aufmerksamkeit mit höherer Parametereffizienz und Merkmalsextraktionsfähigkeit erheblich. Um schließlich den Rechenaufwand zu verringern und die Informationsintegrität jedes Kanals zu erhalten, werden einige der Merkmalskanäle in Massendaten umorganisiert und durch den

Mechanismus der dynamischen Faltungsaufmerksamkeit mit Erwartungsmaximierung (EM-DCA) in mehrere Gruppen unterteilt, so dass die räumlichen semantischen Merkmale gleichmäßig in jeder Merkmalsgruppe verteilt sind.

Wie in Bild 2 gezeigt, kann das herkömmliche CNN durch das Stapeln mehrerer kleiner

Faltungskerne zwar ein größeres sensorisches Feld erzeugen, aber die Rechenkomplexität des

Netzwerks steigt mit der Zunahme der Anzahl der Schichten dramatisch an, und gleichzeitig kann es leicht zu dem Problem verschwindender oder explodierender Gradienten kommen. Um dieses

Problem zu lösen, schlägt die vorliegende Erfindung ein Faltungs-Backbone-Netz mit breitem

Sichtfeld vor, das größere Faltungskerne verwendet, um die Wahrnehmungsfähigkeit des Netzes und die Generalisierungsfähigkeit zu verbessern und sich besser an die komplexen Szenen in diesem Papier anzupassen.

Das Wide Field of View Convolutional Backbone Network besteht aus vier Hauptstufen, die jeweils eine Ausgangsschicht (stem), eine Stufenschicht (Stage) und eine

Übergangsfaltungsschicht (Transition) enthalten; Unter ihnen ist die tiefenweise Faltungsschicht eine tiefenseparierbare Faltung, die aus zwei Teilen besteht, nämlich der tiefenweisen (DW)

Merkmalspixeln der verschiedenen Schichten schwächen kann, was zu einem Genauigkeitsverlust führen kann; Die PW-Faltung ist eine 1x1-Faltung mit n-Kanal-Ausgang, die darauf abzielt, die fehlende Interaktion zwischen den Merkmalen bei der DW-Faltung zu kompensieren. Durd#/601503

Merkmalen zu verbessern;

Ferandard — (D, X D, X C) ’ Cou Gleichung (1)

Ausgangsmerkmalskanäle und die Anzahl der Faltungskerne;

Pheptinvise = (D, x D, x 1) xC+1x1xCxC 7 leich 2 =D, x D, xC+CxC,, Gleichung (2)

Standard-Convolutional-Parameter beträgt:

Porandard (D, X D; x C) ) Cu

Ha Gleichung (3

CC, D,xD, eichung (3)

SchrittgrôBe von 2, einer tiefen-separierbaren Faltung und einer DW-Faltung mit einer

SchrittgrôBe von 2, die für die Hoch- und Herunterskalierung des Eingangsbildes verwendet wird, wie in der folgenden Gleichung dargestellt: _ 33] od 33 | 533

W (h/4,w/4,c1) T D, 1 (Di = (Mae) ))| Gleichung (4)

Bildhöhe und W die Bildbreite ist, ist die Ausgangsmerkmalsdimension der Stammschicht/601503

H/4xW/4xC1, wobei C1 die Anzahl der Kanäle nach der Hochskalierung ist;

Formabweichung, wie in der folgenden Gleichung dargestellt:

RF, = RE, xS,+(K,~1) Gleichung (5)

Die obige Gleichung ist die Formel für die Berechnung des sensorischen Feldes, wobei RF, die Größe des sensorischen Feldes der n-ten Schicht, RF,, die Größe des sensorischen Feldes der n-1-ten Schicht, S, die Schrittgröße der n-ten Schicht und X, die Größe des Faltungs-Kernels der n-ten Schicht ist;

Netzstruktur ist wie folgt:

Wie in Bild 3 zu sehen ist, mangelt es der Anwendung der traditionellen statischen Faltung bei der komplexen Szene der Ubertragungsleitungen an Flexibilität, da sie während des

Netzwerktrainings unverändert bleibt und nicht an die Änderungen in der Merkmalsverteilung der verschiedenen Fingabedaten angepasst werden kann, was zu einer Verringerung der

Anpassungsfähigkeit des Modells und einer schlechteren Erkennung von Isolatoren in komplexen

Szenen führt. In der Zwischenzeit verwendet das Basismodell eine stufenübergreifende

Merkmalsfusionsstrategie, die dazu führen kann, dass Merkmalsinformationen verwischt oder ignoriert werden, was die Leistung des Modells beeintrachtigt, und es muss die Gewichte und

Verzerrungen der Merkmalsfusion erlernen, was zu dem Risiko einer Uberanpassung fiihrt. Die vorliegende Erfindung schlägt außerdem ein volldimensionales dynamisches Faltungsmerkmal-

Fusionsmodul vor, das eine lineare Kombination mehrerer Faltungskerne und deren eingabebezogene Aufmerksamkeitsgewichtung erlernt, um die Genauigkeit der Fehlererkennung bei eisbedeckten Isolatoren zu verbessern.

Die volldimensionale dynamische Faltung führt einen mehrdimensionalen

Aufmerksamkeitsmechanismus durch eine parallele Strategie zum Erlernen einer flexibleren

Aufmerksamkeit für die vier Dimensionen des Fusionskernraums ein, wobei für den Fusionskern den Faltungsparametern an der Nullposition, dem Faltungsfilter für den Eingangskanal, den

Faltungsfiltern für die verschiedenen Ausgangskanäle und den n Gesamtfaltungskernen

Aufmerksamkeitsgewichtswerte zugewiesen werden; Durch die schrittweise Multiplikation verschiedener Aufmerksamkeiten auf die Dimensionen der Faltung entlang der Position, des

Kanals, des Filters und des Kerns kann die Faltungsoperation für die Eingaben in jeder Dimension existieren, was eine bessere Leistung zur Erfassung reichhaltiger kontextueller Informationen bietet.

Konventionelle Faltungsschichten haben nur einen statischen Faltungs-Kernel, der auf alt&/601503

Eingabeproben angewandt wird, aber für dynamische Faltungsschichten wird eine lineare

Kombination von n Faltungs-Kernen verwendet, die dynamisch mit einem

Aufmerksamkeitsmechanismus gewichtet werden, um die Faltungsoperation von der Eingabe abhängig zu machen. Die traditionelle dynamische Faltungsoperation kann wie folgt definiert werden:

Xour = XD A W, Gleichung (6) i=l

In der obigen Gleichung ist x der Merkmalseingang der Größe (h,w,c,) und x, der

Merkmalausgang der Größe (h,w,c,,). W, bezeichnet den i-ten Ausgangsfilterkern und a,, ist der Aufmerksamkeitsfaktor. Die traditionelle dynamische Faltung enthält jedoch nur den Faltungs-

Kernel und die Aufmerksamkeitsgewichte für den Filter-Kernel. Die detaillierten Parameter des

Faltungskerns bestehen jedoch immer noch aus den Kernelparametern sowie den Eingangs- und

Ausgangskanälen, wodurch andere Parameter, die auf die Faltung abgestimmt werden kônnen, ignoriert werden und die Faltungsparameter um einen Faktor n erhöht werden, was ineffizient ist;

Die Implementierung der volldimensionalen dynamischen Faltung ist unten dargestellt: n

Aufmerksamkeitsgewichten ermöglichen Faltungsoperationen fiir alle räumlichen Positionen verschiedener Eingaben, alle Eingangskanäle, alle Filter und alle Kerne und bieten

Leistungsgarantien fiir die Erfassung umfangreicher kontextueller Hinweise.

ODC2F) läuft wie folgt ab:

Im Basismodell spielt das C2F (Coarse-to-Fine) -Modul zwar eine Schlüsselrolle im Prozess der stufenübergreifenden Merkmalsfusion, aber sein stufenübergreifender

Merkmalsfusionsprozess kann dazu führen, dass einige wichtige Merkmalsinformationen verwischt oder ignoriert werden, was die Leistung des Modells beeinträchtigt. Außerdem muss es die Gewichte und Verzerrungen der Merkmalsfusion erlernen, so dass es eine große Anzahl zusätzlicher Parameter einführt, was zu einem Risiko der Uberanpassung führen kann: 1x1 .

Fou =r (M ot oF,) Gleichung (8) _ ll 3x3 3x3

M,= fa pale: (F5, (E )) + oF, | Gleichung (9)

In der obigen Gleichung ist F, das Eingangsmerkmal, F,, ist das Ausgangsmerkmal, 7 ist 1, wenn der Engpass wahr ist, andernfalls ist es 0, A ist die Anzahl der

Merkmalsfusionsmodule und « ist der Restgewichtsverzerrungskoeffizient, Sein Modul kann aufgrund des relativ begrenzten Informationsaustauschs zwischen den Merkmalskarten zu einb}/601503 schlechten Zielerkennungsgenauigkeit führen, während die ODC2F-Formel wie folgt angegeben wird: , I (à f"

Fy = FC (M oT OF, ) Gleichung (10) 1 _ gl] 3x3 3x3

M,= Ja (al (0; (E, ))) +TH, I Gleichung (11)

Abschnitt beschriebene volldimensionale dynamische Faltung; Das Erlernen von

Leistung bei der Erfassung umfangreicher kontextueller Informationen.

Schritt 2.4: Erwartungsmaximierender dynamischer Faltungsaufmerksamkeitsmechanismus

Die EM-DCA-Netzwerkstruktur ist wie folgt: Wie in Bild 4 dargestellt, verwendet der herkömmliche Aufmerksamkeitsmechanismus eine Dimensionalitätsreduktion der Kanäle, um kanalübergreifende Beziehungen zu modellieren, wobei das Netzwerk die Informationen zu jedem

Kanal nur schwer behalten kann und das Modell eine schlechte Leistung erbringt, was es schwierig macht, die gewünschten Ergebnisse zu erzielen. Daher verwendet die vorliegende Erfindung den erwartungsmaximierenden Aufmerksamkeitsmechanismus, um die Aufmerksamkeit auf die wichtigen Informationen in den Eingabedaten zu richten und diese zu nutzen, was dem Modell hilft, seine Aufmerksamkeit besser auf die wichtigen Ziel- oder Szenenteile zu lenken, und es lernt eine verallgemeinerte Merkmalsdarstellung, was die Generalisierungsfähigkeit und Robustheit des

Modells verbessert. . . Cx HW . .

ClIGxHxW

F=|F,E,F,].FeR Gleichung (12)

Der EM-DCA-Aufmerksamkeitsmechanismus hat vier Zweige, in denen drei parallele Pfade die Beschreibung der Aufmerksamkeitsgewichte der gruppierten Merkmalskarte extrahieren; zwei 1x1-Zweige und ein 3x3-Zweig, Zwei der globalen Durchschnittspools werden verwendet, um

Merkmalsdarstellungen zu erfassen;

Kanal C lautet:

P*(H)=L 3 x (Hi) Gleichung (13)

W O<isW

Die gepoolte Leistung entlang des Kanals C bei der Breite W ist gegeben durch:

P” (W)= + > x (JW) Gleichung aay 995

H oz j<H

Merkmalsraum zu erweitern.

Es werden nicht nur die Informationen zwischen den Kanälen kodiert, um die Bedeutung der verschiedenen Kanäle anzupassen, sondern auch die genaue räumliche Strukturinformation wird in den Kanälen beibehalten.

Zweiges wird in die entsprechende dimensionale Form R XR, umgewandelt, die durch Gleichung gegeben ist: 1 H W

P= ow 2200) Gleichung (15)

Schließlich wird die Ausgabe jedes Zweigs als Aufmerksamkeitsgewichtungswert berechnet, der mit den globalen semantischen Informationen kombiniert wird, um den Schwerpunktbereich zu erfassen. Dieses Modul hilft dem Modell, die Schlüsselinformationen in den Fingabedaten effektiver zu erfassen und die Aufmerksamkeitsverteilung entsprechend ihrer Bedeutung dynamisch anzupassen. Gleichzeitig werden unter Beibehaltung der Informationen zu den einzelnen Kanälen und mit dem Ziel, den Rechenaufwand zu verringern, einige der Kanäle in

Stapeldimensionen umgestaltet, und die Kanaldimensionen werden in mehrere Untermerkmale gruppiert, so dass die räumlichen semantischen Merkmale gleichmäßig in jeder Merkmalsgruppe verteilt sind.

Wobei Schritt 3 insbesondere in Ubereinstimmung mit den folgenden Schritten implementiert wird:

Runden und Erhalten der Trainingsergebnisse;

Ermittlung der Validierungsergebnisse und Analyse der Unterschiede zwischen den

Trainingsset gut, im Validierungsset jedoch schlecht abschneidet, d.h. die

Schritt 3.3: Das optimierte LDKA-NET-Netzmodell wird durch Anpassung der

Hyperparameter des LDKA-NET-Netzmodells auf dem Validierungssatz, Feineinstellung der

Lernrate auf 0,003 fiir eine bessere Robustheit und Einstellung der batch size auf 16 erhalten;

wobei die Hyperparameter die Parameter sind, die manuell eingestellt werden müssen, bevor d4$/601503

Modell trainiert wird.

Runden Freeze-Training, batch size32, 250 Runden Unfreeze-Training, batch _size4, num_workers2, Adam-Optimierer, Decay-Gewichtskoeffizienten 5*10- 4, anfängliche Lernrate 1* 10- 5 und Einstellung des IoU-Schwellenwerts auf 0,5 für das Experiment beim Testen des

NET-Modell zu erhalten;

Testsatzes, um die Erkennungsergebnisse zu erhalten.

Claims

Ansprüche LU601503

1. Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET, dadurch gekennzeichnet, dass es in Übereinstimmung mit den folgenden Schritten implementiert wird: Schritt 1: Sammeln von Bilddaten von defekten Isolatoren, die Eis auf einer Übertragungsleitung bedecken, Etikettieren und Aufteilen des Datensatzes in einen Trainingssatz, einen Validierungssatz und einen Testsatz; Schritt 2: Erstellung eines LDKA-NET-Netzmodells mit Faltungsnetzwerken; Schritt 3: Eingabe der Bilder im Trainingssatz in das LDKA-NET-Netzwerkmodell mit Faltungsnetzwerk zum Trainieren, und Erhalt des optimierten LDKA-NET-Netzwerkmodells durch Training; Schritt 4: Eingabe der Bilder im Testsatz in das optimierte LDKA-NET-Netzwerkmodell zur Erkennung und Erhalt einer Karte der Defekterkennungsergebnisse des eisbedeckten Isolators.

2. Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt 1 insbesondere gemäß den folgenden Schritten durchgeführt wird: Schritt 1.1: Aufnehmen einer großen Anzahl von Inspektionsvideos, einschließlich Bildern von mit Eis bedeckten Isolatoren von Übertragungsleitungen in verschiedenen komplexen Hintergründen, sowie Bildern, einschließlich Fernansichten, Nahansichten und Nahansichten, durch eine von der Drohne getragene Hochauflösungskamera, und Beibehalten einer konsistenten Anzahl von Bildern von jeder Art von mit Eis bedecktem Isolator; Schritt 1.2: Drehen, Spiegeln, Skalieren und beliebiges Beschneiden der in Schritt 1.1 erhaltenen Bilder der eisbedeckten Isolatoren, um die erweiterten Bilder der eisbedeckten Isolatoren zu erhalten; Schritt 1.3: Nehmen Sie die Summe des in Schritt 1.1 erhaltenen Bildes des eisbedeckten Isolators und des in Schritt 1.2 erhaltenen erweiterten Bildes des eisbedeckten Isolators als eine Bibliothek von Beispielbildern des eisbedeckten Isolators und erstellen Sie eine entsprechende Beschriftungsdatei für jedes Beispielbild in der Bibliothek von Beispielbildern des eisbedeckten Isolators. Die Beschriftungsdatei entspricht dem xml-Beschriftungsdateistandard des Pascal VOC- Formats, und die xml-Beschriftungsdatei enthält die Bild-ID, den Bildpfad, den Bildnamen und die Pixelhöhe und -breite des Bildes, wobei die Pixelhöhe und -breite des Bildes durch die vier Koordinaten eines rechteckigen Kastens dargestellt werden, die X_.., Ymin> Xmax> Ymax Sind, wobei (Xmin> Ymin ) die Koordinaten der oberen linken Eckpunkte des rechteckigen Kastens und (Xmnax>Ymax) die Koordinaten der unteren rechten Eckpunkte des rechteckigen Kastens sind; Schritt 1.4: Teilen Sie die in Schritt 1.3 erhaltene Bildbibliothek der eisbedeckten Isolatorproben in einen Trainingssatz, einen Validierungssatz und einen Testsatz im Verhältnis 8:1:1 auf.

3. Das Verfahren zur Identifizierung und Erkennung von eisbedeckten Isolatoren auf der Grundlage eines Faltungsnetzwerks LDKA-NET nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt 2 insbesondere gemäß den folgenden Schritten implementiert wird: Schritt 2.1: Aufbau eines Netzwerkmodells des Faltungsnetzwerks LDKA-NET, das vier

Teile umfasst: Bildvorverarbeitung, Backbone-Netzwerk (Rückgrab}601 503 Merkmalsextraktionsnetzwerk (Hals) und Vorhersagenetzwerk (Kopf); Schritt 2.2: Die Struktur des Backbone-Faltungsnetzwerks mit weitem Sichtfeld ist wie folgt Das Wide Field of View Convolutional Backbone Network besteht aus vier Hauptstufen, die jeweils eine Ausgangsschicht (stem), eine Stufenschicht (Stage) und eine Übergangsfaltungsschicht (Transition) enthalten; unter ihnen ist die tiefenweise Faltungsschicht eine tiefenseparierbare Faltung, die aus zwei Teilen besteht, nämlich der tiefenweisen (DW) Faltung und der punktweisen (PW) Faltung; jeder Faltungskern der DW-Faltung wird nur für die entsprechende Merkmalskarte berechnet, was jedoch die Informationsinteraktion zwischen den Merkmalspixeln der verschiedenen Schichten schwächen kann, was zu einem Genauigkeitsverlust führen kann; Die PW-Faltung ist eine 1x1-Faltung mit n-Kanal-Ausgang, die darauf abzielt, die fehlende Interaktion zwischen den Merkmalen bei der DW-Faltung zu kompensieren.

Durch Punkt-zu-Punkt-Multiplikations- und Additionsoperationen ist die PW-Faltung in der Lage, die Informationen verschiedener Merkmalskarten zu kombinieren, um die Interaktion zwischen den Merkmalen zu verbessern;

Bondar = (D, X D, x C) ’ Co Gleichung (1)

Dabei steht C für die Anzahl der Eingangsmerkmalskanäle, C, für die Anzahl der Ausgangsmerkmalskanäle und die Anzahl der Faltungskerne;

Darüber hinaus ist die Tiefenfaltung in der tiefenseparierbaren Faltung für die Filterung, Größe D), x D, x1 , C insgesamt, verantwortlich, die auf jeden Kanal des Eingangs wirkt, und die punktweise Faltung ist für die Transformation der Kanäle, Größe 1x1xC, Cut insgesamt, verantwortlich, die auf das Ausgangs-Feature-Mapping der Tiefenfaltung wirkt;

Pheptinvise = (D, x D, x 1) xC+1x1xCxC 7 leich 2 =D, x D, xC+CxC,, Gleichung (2) Das Verhältnis zwischen der Anzahl der Deep Convolutional-Parameter und der Anzahl der Standard-Convolutional-Parameter beträgt: Prepihwise D, x D, xC+CxC Psrandard (D, x D, X C) ) Cu Ha Gleichung (3 Cut D, x D, AG ung ( )

Die Stammschicht besteht aus einer 3 x 3-Faltung mit einer Schrittweite von 2, einer tiefeh/601503 separierbaren Faltung und einer DW-Faltung mit einer Schrittweite von 2, die fiir die Hoch- und Herunterskalierung des Eingangsbildes verwendet wird, wie in der folgenden Gleichung dargestellt:

Coma 411 | 3a 33 W (h/4,w/4,01) — DS 1 (Di = (Mae) ))| Gleichung (4)

Wie in Gl. gezeigt, wobei w die Merkmalsgewichtung ist und D das in der Tiefe trennbare Volumen darstellt; unter der Annahme, dass die Eingangsdimensionen H und W sind, wobei H die Bildhôhe und W die Bildbreite ist, ist die Ausgangsmerkmalsdimension der Stammschicht H/4xW/4xC1, wobei C1 die Anzahl der Kanäle nach der Hochskalierung ist;

Die Stufenschicht wird durch RepLK Block und ConvFFN gestapelt; RepLK Block enthält die Normalisierungsschicht, 1x1-Faltung und tiefenseparierbare Faltung sowie wichtige Restverbindungen; ConvFFN verwendet 1x1-Faltung anstelle von vollständig verbundenen Schichten und Restverbindungen zwischen den Schichten; die Ubergangsschicht verwendet hauptsächlich PW-Faltung und DW-Faltung mit einer Schrittgröße von 2 für das Downsampling von Bildern;

Darüber hinaus ermöglicht die Verwendung eines Backbone-Netzes mit großen Kernen ein größeres sensorisches Sichtfeld mit weniger Schichten und gleichzeitig eine höhere Formabweichung, wie in der folgenden Gleichung dargestellt:

RF, = RE, xS,+(K,~1) Gleichung (5)

Die obige Gleichung ist die Formel für die Berechnung des sensorischen Feldes, wobei RF, die Größe des sensorischen Feldes der n-ten Schicht, RF,, die Größe des sensorischen Feldes der n-1-ten Schicht, S, die SchrittgroBBe der n-ten Schicht und X, die Größe des Faltungs-Kernels der n-ten Schicht ist;

Netzstruktur ist wie folgt:

In der obigen Gleichung sind «,,, «,, , und «, die Aufmerksamkeitskoeffizienten des Fusionskerns im Raum, der Kanal, das Faltungsfilter bzw. der Faltungskern;

Die volldimensionale Merkmalsfusion (ODC2F) ist wie folgt:

Die Gleichungen sind wie folgt spezifiziert:

1x1 Fou =r (M ot oF,) Gleichung (8) 1x1 3x3 3x3 Mo =f. pale: (F5, (E )) + oF, | Gleichung (9)

; ; ; ; ; LU601503 In der obigen Gleichung ist F, das Fingangsmerkmal, F,, ist das Ausgangsmerkmal, 7 ist 1, wenn der Engpass wahr ist, andernfalls ist es 0, À ist die Anzahl der Merkmalsfusionsmodule und w@ ist der Restgewichtsverzerrungskoeffizient, Sein Modul kann aufgrund des relativ begrenzten Informationsaustauschs zwischen den Merkmalskarten zu einer schlechten Zielerkennungsgenauigkeit führen, während die ODC2F-Formel wie folgt angegeben wird: , I (à f" Fy = FC (M oT OF, ) Gleichung (10) 1 _ gl] 3x3 3x3 M,= Jar (al (0; (E, ))) +TH, I Gleichung (11) In der obigen Gleichung ist F’, das Ausgangsmerkmal; <7; ist die im vorherigen Abschnitt beschriebene volldimensionale dynamische Faltung; Schritt 2.4: Erwartungsmaximierung Dynamischer Faltungsaufmerksamkeitsmechanismus Das EM-DCA-Netz ist wie folgt aufgebaut: . . Cx HW . . Lassen Sie das Eingangsmerkmal FeR , C den Eingangskanal, H und W die Lange bzw. die Breite des Eingangsmerkmals bezeichnen und unterteilen Sie das Merkmal F in G Untermerkmale entlang der Kanaldimension, G<<C, dann kann F wie folgt ausgedrückt werden: ClIGxHxW F=[F.F, FF eR Gleichung (12) Der EM-DCA-Aufmerksamkeitsmechanismus hat vier Zweige, in denen drei parallele Pfade die Beschreibung der Aufmerksamkeitsgewichte der gruppierten Merkmalskarte extrahieren; zwei 1x1-Zweige und ein 3x3-Zweig, Zwei der globalen Durchschnittspools werden verwendet, um Kanäle entlang zweier räumlicher Richtungen im 1x1-Zweig zu kodieren, und eine volldimensionale dynamische Faltung ist im 3x3-Zweig enthalten, um multiskalige Merkmalsdarstellungen zu erfassen; Die beiden parallelen 1D-Merkmalscodierungsvektoren teilen sich eine 1x1-Faltung, so dass das Modell lokale kanalübergreifende Interaktionen erfassen kann, und die Formel für die Codierung globaler Informationen auf der Höhe H in Richtung der horizontalen Dimension von Kanal C lautet: P*(H)=L 3 x (Hi) Gleichung (13) W O<isW Die gepoolte Leistung entlang des Kanals C bei der Breite W ist gegeben durch: P'(w)=+ X x (JW) Gleichung (14) H oz j<H Die globalen räumlichen Informationen werden in der Ausgabe des 1x1-Zweigs kodiert, indem das 2D Global Average Pooling verwendet wird, um die Ausgabe des kleinsten Zweigs in . . . 1xG Cl/GxHW . . die entsprechende dimensionale Form R X R, zu transformieren, die durch Gleichung gegeben 1st:

How LU601503 P= ow 2200) Gleichung (15) SchlieBlich wird der Ausgang jedes Zweiges als Aufmerksamkeitsgewichtungswert berechnet, der mit der globalen semantischen Information kombiniert wird, um den Fokusbereich zu erfassen.

4. Das Verfahren zur Identifizierung von Defekten in eisbedeckten Isolatoren mit dem Faltungsnetzwerk LDKA-NET nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt 3 insbesondere gemäß den folgenden Schritten durchgeführt wird: Schritt 3.1: Eingabe des in Schritt 1.4 aufgeteilten Trainingssatzes von Bildern in das in Schritt 3 erhaltene LDKA-NET-Netzmodell zum Trainieren, Einstellen der batch_size auf 16, Verwenden des stochastischen Gradientenabstiegs mit einem Impuls von 0,9, Trainieren von 400 Runden und Erhalten der Trainingsergebnisse; Schritt 3.2: Validierung des LDKA-NET-Netzmodells anhand des Validierungssatzes, Ermittlung der Validierungsergebnisse und Analyse der Unterschiede zwischen den Trainingsergebnissen und den Validierungsergebnissen, z. B. ob sie überangepasst oder unterangepasst sind; Wenn eine Überanpassung vorliegt, bedeutet dies, dass das Modell im Trainingsset gut, im Validierungsset jedoch schlecht abschneidet, dh. die Generalisierungsfähigkeit des Modells ist schlecht, was durch eine Erhöhung der Anzahl der Bilder im Trainingsset, eine Verringerung der Komplexität des Modells und eine Feinabstimmung der Hyperparameter gelöst werden muss; wenn eine Unteranpassung vorliegt, bedeutet dies, dass das Modell im Trainingsset und im Validierungsset schlecht abschneidet, was durch eine Erhöhung der Komplexität des Modells, eine Feinabstimmung der Hyperparameter und das Hinzufügen weiterer Zielmerkmalmethoden gelöst werden muss; Schritt 3.3: Das optimierte LDKA-NET-Netzmodell wird durch Anpassung der Hyperparameter des LDKA-NET-Netzmodells auf dem Validierungssatz, Feineinstellung der Lernrate auf 0,003 für eine bessere Robustheit und Einstellung der batch_size auf 16 erhalten; wobei die Hyperparameter die Parameter sind, die manuell eingestellt werden müssen, bevor das Modell trainiert wird.

5. Das Verfahren zur Identifizierung von Defekten in eisbedeckten Isolatoren mit dem Faltungsnetzwerk LDKA-NET nach Anspruch 1, wobei der Schritt 4 insbesondere gemäß den folgenden Schritten durchgeführt wird: Schritt 4.1: Eingabe des Testsatzes in den beschriebenen Schritt 3.3, um das optimierte LDKA-NET-Modell zu erhalten; der Optimierungsprozess ist wie folgt spezifiziert: Einstellung der Hyperparameter des LDKA-NET-Netzmodells: Pixelgröße des Eingangsbildes 640*640, 150 Runden Freeze-Training, batch size32, 250 Runden Unfreeze-Training, batch _size4, num_workers2, Adam-Optimierer, Decay-Gewichtskoeffizienten 5*10- 4, anfängliche Lernrate 1* 10- 5 und Einstellung des IoU-Schwellenwerts auf 0,5 für das Experiment beim Testen des Testsatzes. Während der Validierung wird die Lernrate zur Verbesserung der Robustheit auf 0,003 feinabgestimmt, die batch size wird auf 32 gesetzt, die ersten 150 Trainingsrunden werden eingefroren und der Verlust nimmt schnell ab, die nächsten 250 Runden werden aufgetaut und das Netz wird kontinuierlich feinabgestimmt, und die Verluständerung in der Validierungsmenge nimmt nach 350 Runden von insgesamt 400 Runden allmählich ab, um das optimierte LDKA- NET-Modell zu erhalten; Schritt 4.2: Testen Sie die Leistung des optimierten LDKA-NET-Modells anhand des Testsatzes, um die Erkennungsergebnisse zu erhalten.