Modèles linguistiques visuels pour la télédétection de la classification à faible échantillon : une vue d'ensemble

TAN Xiaomeng ,  

XI Bobo ,  

XUE Changbin ,  

LI Yunsong ,  

XU Haitao ,  

摘要

Les modèles linguistiques visuels ont fait des progrès significatifs dans de nombreuses tâches multimodales telles que la classification à faible échantillon, la recherche d'images, les légendes d'images, les réponses visuelles et le positionnement visuel. Cependant, la plupart des méthodes reposent sur un pré-entraînement sur des ensembles de données généraux, ce qui conduit à de mauvaises performances de généralisation dans des domaines spécifiques tels que la télédétection et la médecine. Récemment, de nombreux modèles linguistiques visuels spécifiques à la télédétection ont été proposés, ces nouveaux modèles fonctionnent en affinant les modèles linguistiques visuels généraux en utilisant de grandes images et des textes de télédétection dans le but de créer des modèles visuels linguistiques spécialisés pour le domaine de la télédétection. Cet article dresse un bilan et analyse les derniers développements des modèles linguistiques visuels pour la télédétection, principalement en utilisant des données de langage visuel général pour affiner les modèles linguistiques visuels et construire des modèles spécialisés pour la télédétection; toutefois, le développement des modèles actuels est très diversifié, ce qui rend difficile l'établissement d'un système d'évaluation de référence unifié pour les modèles linguistiques visuels pour la télédétection. Pour résoudre ce problème, il est possible de combiner la conception de l'architecture du modèle, les techniques de raffinement pour optimiser les ressources informatiques, tout en améliorant progressivement le système d'évaluation en fonction des caractéristiques diverses des tâches.

关键词

Interprétation intelligente de la télédétection; modèle linguistique visuel; modèle linguistique visuel pour la télédétection; techniques de raffinement du modèle; apprentissage multimodal; alignement texte-image; classification à faible échantillon; construction d'ensembles de données pour la télédétection

阅读全文