Großflächige Landbedeckungskartierung basierend auf multimodalen Daten und multimodaler Modellfusion

RU Yifan ,  

TANG Guoliang ,  

LI Chunlai ,  

摘要

Die aktuelle Landbedeckungskartierung steht vor zentralen Herausforderungen wie der Begrenzung auf einzelne Datenquellen, hoher Datenheterogenität und unzureichender Generalisierungsfähigkeit einzelner Modelle. Daher basiert diese Studie auf den spektralen Merkmalen multispektraler Bilder MSI (Multispectral Imagery) und den unterschiedlichen Eigenschaften der Synthetic Aperture Radar (SAR)-Daten, um einen multimodalen (MSI+SAR) Datensatz zu erstellen, der die Nachteile unimodaler SAR-Daten in komplexen Szenarien ausgleicht. Darüber hinaus wurde nach systematischer Bewertung von sieben repräsentativen Modellen auf Modellebene eine multimodale Verschmelzungsmethode vorgeschlagen, die drei Architekturtypen integriert: FCN repräsentiert Convolutional Neural Networks (CNN), ConViT repräsentiert Visual Transformers (ViT) und CoAtNet repräsentiert eine hybride CNN-ViT-Architektur. Die experimentellen Ergebnisse zeigen, dass multimodale (MSI+SAR) Daten im Vergleich zu unimodalen SAR-Daten eine signifikante Verbesserung bei der Gesamtgenauigkeit OA (Overall Accuracy) und dem frequenzgewichteten Intersection over Union FWIoU (Frequency-Weighted Intersection over Union) erzielen, zwei repräsentative semantische Segmentierungsmetriken. Der vorgeschlagene multimodale Verschmelzungsrahmen verbessert zudem beide Indikatoren weiter. Die in dieser Studie vorgeschlagene innovative Methode stärkt nicht nur die Fähigkeit der Modelle, komplexe Geländecharakteristika zu extrahieren, sondern verbessert auch effektiv die Klassifizierung in der großflächigen Landbedeckungskartierung und bestätigt das große Potenzial multimodaler Daten und multimodaler Modellfusion in der Fernerkundung.

关键词

Landbedeckungskartierung;multispektral;Synthetic Aperture Radar;multimodal;multimodale Modellfusion;Convolutional Neural Networks;Visual Transformers

阅读全文