Avec l'intégration profonde de la technologie de télédétection et de l'intelligence artificielle, la demande humaine pour l'application des données de télédétection devient de plus en plus raffinée. Cependant, les données monomodales présentent des limites dans l'interprétation de scénarios complexes, et il est difficile d'exploiter pleinement les informations profondes dans les images de télédétection. Par conséquent, l'analyse conjointe de données multimodales devient un moyen clé d'améliorer la capacité d'interprétation des données de télédétection, poussant ainsi le domaine de la télédétection vers un développement plus poussé. Comprendre la modélisation textuelle et visuelle établit un lien entre les images de télédétection et la cognition humaine, en utilisant les informations sémantiques textuelles pour renforcer la représentation des caractéristiques visuelles, réalisant ainsi une complémentarité d'informations multimodales, améliorant significativement les performances d'interprétation des données de télédétection. Cet article, axé sur la compréhension multimodale texte-image, divise la compréhension multimodale texte-image de la télédétection en quatre tâches : description d'images de télédétection, génération de texte à partir d'images, alignement texte-image et question-réponse sur images de télédétection. Il résume d'abord l'état de développement de la recherche multimodale texte-image en Chine et à l'étranger, puis présente les ensembles de données publics couramment utilisés et les mesures d'évaluation pour la compréhension multimodale texte-image. Enfin, il résume les défis techniques auxquels est confrontée la compréhension multimodale texte-image dans la télédétection et donne un aperçu des orientations futures de la recherche.