Avec l'intégration profonde des technologies de télédétection et de l'intelligence artificielle, la demande d'application des données de télédétection par l'homme devient de plus en plus fine. Cependant, les données à modalité unique présentent des limites dans l'interprétation de scènes complexes, et il est difficile d'exploiter pleinement les informations profondes des images de télédétection. Par conséquent, l'analyse conjointe des données multimodales est un moyen clé d'améliorer la capacité d'interprétation de la télédétection et stimule le développement ultérieur de la télédétection. La compréhension transmodale des images utilise une description textuelle pour établir un lien entre les images de télédétection et la perception humaine, en utilisant des informations sémantiques textuelles pour améliorer la caractérisation visuelle, améliorant considérablement les performances de l'interprétation de la télédétection. Cet article se concentre sur la compréhension transmodale des images de télédétection, en la divisant en quatre tâches : la description d'images de télédétection, la génération de texte d'images, l'alignement de l'image de télédétectionà et les réponses à des questions sur l'image de télédétection. Il résume d'abord l'état actuel de la recherche transmodale mondiale, puis présente les ensembles de données publics couramment utilisés et les indicateurs d'évaluation actuels pour la compréhension transmodale des images de télédétection. Enfin, il résume les défis techniques auxquels la compréhension transmodale des images de télédétection est confrontée, et fait des projections sur les orientations futures de la recherche.
关键词
Compréhension transmodale des images; Description d'images; Génération de texte d'images; Alignement d'images de télédétection; Réponses à des questions sur les images; Ensembles de données transmodales de télédétection