Feinkörnige Extraktion typischer Ziele in SAR-Bildern basierend auf frequenzräumlicher Synergie

YANG Han ,  

SUN Minhong ,  

WANG Xinyi ,  

LIU Jin ,  

ZENG Deguo ,  

DING Chenwei ,  

WEI Shiqing ,  

摘要

Synthetic Aperture Radar (SAR)-Bilder enthalten inhärentes kohärentes Streurauschen, das die genaue Erfassung der Beziehungen zwischen komplexen Objekten erschwert, wodurch die Aufgabe der Zielerkennung in SAR-Bildern äußerst herausfordernd ist. Bestehende Methoden der Tiefenlernerkennung zeigen aufgrund von Streurauschen und komplexen Objekteinflüssen Genauigkeitsmängel. Daher schlägt diese Studie ein auf frequenzräumlicher Synergie basierendes Transformer-Netzwerk namens S3T-Net (Spectral-spatial synergetic transformer network) zur feinkörnigen Extraktion typischer Ziele in SAR-Bildern vor. Das Netzwerk kombiniert eine Frequenzkodierungseinheit mit einer visuellen Transformer-Codierungseinheit (ViT), um Merkmale von SAR-Bildern zu extrahieren und zu fusionieren. Die Frequenzkodierungseinheit verwendet diskrete Wavelet-Transformation (DWT) zur Unterabtastung und die spektral-hierarchische Dual-Domain-Attention SHDA (Spectral-hierarchical dual-domain attention), um lokale Texturdetails im Frequenzbereich zu erfassen und die Empfindlichkeit gegenüber Rauschen zu verringern, während die ViT-Codierungseinheit mittels globalem Self-Attention-Mechanismus die Gesamtstruktur des Bildes und Langstreckenabhängigkeiten versteht. Zusätzlich verwendet die Studie synergistische gewichtete Merkmalskonfluenz SWFC (Synergistic weighted feature confluence) zur Integration der Informationen der beiden Codierungseinheiten und entwirft das rekursive Frequenz-Raum-Feinabstimmungsmodul RFSR (Recursive frequency-space refinement), welches Rauschstörungen während der Upsampling-Prozesse reduziert und die Zielgrenzen optimiert. Experimentelle Ergebnisse auf drei öffentlichen SAR-Datensätzen für die Aufgaben SARBuD (Gebäude), HRSID (Schiffe) und FRBS (Öllecks) zeigen, dass die vorgeschlagene Methode mehrere aktuelle State-of-the-Art (SoTA)-Modelle bei Metriken wie dem Dice-Koeffizienten übertrifft, mit Fortschritten von 0,52 %, 0,62 % und 1,04 % auf diesen drei Datensätzen. Zusammenfassend kann die frequenzräumliche Synergiemethode die Fähigkeit zur Objekterfassung in stark gestörten Umgebungen effektiv verbessern und bietet neue technische Wege und theoretische Unterstützung für die Zielerkennungsaufgabe in SAR-Bildern.

关键词

SAR-Bilder; Zielerkennung; Tiefenlernen, Rauschunterdrückung; frequenzräumliche Synergie; Transformer

阅读全文