Revue des modèles visuels-langues pour la télédétection orientée classification zéro-shot

TAN Xiaomeng ,  

XI Bobo ,  

XUE Changbin ,  

LI Yunsong ,  

XU Haitao ,  

摘要

Après un entraînement sur de vastes données générales, les modèles visuels-langues disposent d'une certaine capacité de compréhension image-texte, offrant des performances excellentes dans des tâches telles que la classification zéro-shot, la classification à petits échantillons, la recherche image-texte, la génération de légendes, les questions-réponses visuelles et la localisation visuelle. Cependant, lors du traitement d'images de domaines spécialisés comme la télédétection, leur performance décline fortement en raison des différences de distribution de domaine. Au cours des deux dernières années, plusieurs chercheurs se sont penchés sur la personnalisation des modèles visuels-langues pour le domaine de la télédétection. Plusieurs ensembles de données d'images et textes de télédétection de grande envergure ont été construits afin de réaliser un ajustement fin des modèles visuels-langues dans le domaine de la télédétection, leur conférant une capacité de perception géographique. Cet article, centré sur la tâche de classification zéro-shot, sélectionne et analyse principalement les recherches liées aux modèles visuels-langues pour la télédétection supportant cette tâche. Par une méthode d'analyse comparative, le développement des modèles visuels-langues pour la télédétection est résumé selon trois dimensions : la construction des ensembles de données texte-image en télédétection, les stratégies d'ajustement fin des modèles et les améliorations architecturales. Les résultats montrent que les performances des modèles visuels-langues dans le domaine de la télédétection pour la classification zéro-shot dépendent fortement de grands ensembles de données annotées de haute qualité avec images et textes de télédétection, tout en étant limitées par des capacités de calcul performantes. De plus, le développement actuel des modèles est assez dispersé et diversifié, ce qui complique l'établissement d'une évaluation de référence unifiée. Les recherches futures devraient se concentrer sur le développement d'architectures légères intégrant des connaissances a priori géospatiales et sur la mise en place d'un système d'évaluation de référence unifié pour les modèles visuels-langues en télédétection.

关键词

Interprétation intelligente de la télédétection; modèles visuels-langues; modèles visuels-langues pour la télédétection; techniques d'ajustement fin des modèles; apprentissage multimodal; alignement texte-image; classification zéro-shot; construction de bases de données de télédétection

阅读全文