Visuelle Sprachmodelle für die Fernerkundung mit geringer Stichprobengröße: Ein Überblick

TAN Xiaomeng ,  

XI Bobo ,  

XUE Changbin ,  

LI Yunsong ,  

XU Haitao ,  

摘要

Visuelle Sprachmodelle haben in verschiedenen multimodalen Aufgaben wie der Klassifizierung mit geringer Stichprobengröße, der Bildsuche, Bildunterschriften, visuellen Antworten und visuellen Positionierung signifikante Fortschritte erzielt. Die meisten Methoden hängen jedoch von einem Vor-Training auf allgemeinen Datensätzen ab, was zu einer schlechten Generalisierungsleistung in spezialisierten Bereichen wie der Fernerkundung und der Medizin führt. In letzter Zeit wurden zahlreiche visuelle Sprachmodelle für die Fernerkundung vorgeschlagen, diese neuen Modelle funktionieren, indem sie allgemeine visuelle Sprachmodelle durch die Verfeinerung mit großen Fernerkundungsbildern und Texten arbeiten, um spezialisierte visuelle Sprachmodelle für den Bereich der Fernerkundung zu schaffen. In diesem Artikel wird ein Überblick über die neuesten Entwicklungen bei visuellen Sprachmodellen für die Fernerkundung gegeben, wobei hauptsächlich allgemeine visuelle Sprachdaten zur Verfeinerung der visuellen Sprachmodelle und zum Aufbau spezialisierter Modelle für die Fernerkundung verwendet werden; jedoch ist die Entwicklung der aktuellen Modelle sehr vielfältig, was die Schaffung eines einheitlichen Referenzbewertungssystems für visuelle Sprachmodelle für die Fernerkundung erschwert. Um dieses Problem zu lösen, ist es möglich, das Design der Modellarchitektur, Anpassungstechniken für die Optimierung der Rechenleistung zu kombinieren, während das Bewertungssystem allmählich anhand der vielfältigen Merkmale der Aufgaben verbessert wird.

关键词

Intelligente Fernerkundungsinterpretation; visuelles Sprachmodell; visuelles Sprachmodell für Fernerkundung; Modellverfeinerungstechniken; multimodales Lernen; Text-Bild-Abstimmung; Klassifizierung mit geringer Stichprobengröße; Erstellung von Fernerkundungsdatensätzen

阅读全文