Nach dem Training mit umfangreichen allgemeinen Daten verfügen visuelle Sprachmodelle über eine gewisse Fähigkeit zum Verständnis von Bild-Text-Beziehungen und erzielen hervorragende Leistungen in Aufgaben wie Null-Proben-Klassifikation, Few-Shot-Klassifikation, Bild-Text-Retrieval, Bildunterschriften, Visuellen Frage-Antwort-Systemen und visueller Lokalisierung. Beim Umgang mit Bildern aus speziellen Bereichen wie der Fernerkundung nimmt ihre Leistung jedoch aufgrund von Unterschieden in der Domänenverteilung häufig stark ab. In den letzten zwei Jahren haben zahlreiche Forschende die Spezialisierung visueller Sprachmodelle im Bereich der Fernerkundung untersucht. Es wurden mehrere groß angelegte Datensätze aus Fernerkundungsbildern und zugehörigen Textpaaren erstellt, um die Feinabstimmung visueller Sprachmodelle im Bereich der Fernerkundung zu ermöglichen und ihnen geographische Wahrnehmungsfähigkeiten zu verleihen. Dieser Artikel konzentriert sich auf die Null-Proben-Klassifikationsaufgabe und wählt und analysiert fokussiert relevante Forschungen zu visuellen Sprachmodellen für die Fernerkundung, die diese Aufgabe unterstützen. Mittels vergleichender Analyse wird die Entwicklung visueller Sprachmodelle für Fernerkundung in drei Dimensionen zusammengefasst: Aufbau von Fernerkundungs-Bild-Text-Datensätzen, Strategien zur Modell-Feinabstimmung und Architekturverbesserungen. Die Ergebnisse zeigen, dass die Leistung visueller Sprachmodelle im Fernerkundungsbereich für die Null-Proben-Klassifikation stark von groß angelegten, qualitativ hochwertigen, annotierten Fernerkundungs-Bild-Text-Datensätzen abhängt und durch leistungsstarke Rechenressourcen begrenzt ist. Zudem ist die aktuelle Entwicklung der Modelle recht fragmentiert und vielfältig, was eine einheitliche Benchmark-Evaluation erschwert. Zukünftige Forschung sollte sich auf die Entwicklung leichter Architekturen konzentrieren, die geografische Priorwissen integrieren und ein einheitliches Benchmark-Bewertungssystem für visuelle Sprachmodelle in der Fernerkundung etablieren.
关键词
Intelligente Fernerkundungsinterpretation; visuelle Sprachmodelle; visuelle Sprachmodelle für Fernerkundung; Modell-Feinabstimmungstechniken; multimodales Lernen; Bild-Text-Ausrichtung; Null-Proben-Klassifikation; Aufbau von Fernerkundungs-Datensätzen