Con la fusión profunda de las tecnologías de teledetección y la inteligencia artificial, la necesidad humana de aplicaciones de los datos de teledetección se vuelve cada vez más precisa. Sin embargo, los datos de un solo modo presentan limitaciones en la interpretación de escenas complejas y es difícil explotar completamente la información profunda en las imágenes de teledetección. Por lo tanto, el análisis coordinado de datos multi-modales se convierte en un medio crucial para mejorar las capacidades de interpretación de la teledetección y promueve el desarrollo continuo en el campo de la teledetección. La comprensión multimodal de las imágenes y el texto crea un vínculo entre las imágenes de teledetección y la percepción humana a través de la descripción textual, aprovechando la información semántica para mejorar la caracterización visual, mejorando significativamente el rendimiento de la interpretación de teledetección. Este artículo divide la comprensión multimodal de las imágenes y el texto de teledetección en cuatro tareas: la descripción de imágenes de teledetección, la generación de texto a partir de imágenes, la alineación de imágenes y texto de teledetección, y preguntas sobre las imágenes de teledetección. En primer lugar, resume los desarrollos de investigación internacionales y nacionales en la comprensión multimodal de imágenes y texto, luego presenta brevemente los conjuntos de datos públicos comúnmente utilizados para la comprensión multimodal de imágenes y texto y las medidas de evaluación, y concluye resumiendo los desafíos técnicos que enfrenta la comprensión multimodal de imágenes y texto de teledetección, y las futuras direcciones de investigación.