Avec l’intégration approfondie des technologies de télédétection et de l’intelligence artificielle, les besoins humains en matière d’application des données de télédétection deviennent de plus en plus sophistiqués. Cependant, les données à modalité unique présentent des limites dans l’interprétation de scènes complexes, rendant difficile l’extraction complète des informations profondes contenues dans les images de télédétection. En conséquence, l’analyse collaborative de données multimodales est devenue une voie clé pour améliorer les capacités d’interprétation de la télédétection et favoriser le développement continu du domaine. La compréhension intermodale texte-image en télédétection établit une relation entre les images de télédétection et la cognition humaine à travers des descriptions textuelles, utilisant l’information sémantique du texte pour renforcer la représentation des caractéristiques visuelles, réalisant une complémentarité d’informations intermodales, ce qui améliore significativement la performance de l’interprétation de la télédétection. Cet article prend la compréhension intermodale texte-image en télédétection comme fil conducteur, la divisant en quatre tâches : description d’images de télédétection, génération d’images à partir de texte, alignement texte-image en télédétection, et questions-réponses sur images de télédétection. Il commence par un aperçu de l’état des recherches nationales et internationales sur la compréhension intermodale texte-image ; puis présente les ensembles de données publics et les metrics d’évaluation couramment utilisés ; enfin, il résume les défis techniques rencontrés par la compréhension intermodale texte-image en télédétection et envisage les perspectives de recherche futures.
关键词
Télédétection multimodale texte-image; description d’images; génération d’images à partir de texte; alignement texte-image; questions-réponses sur images; ensembles de données multimodales de télédétection