Con la profunda integración de la tecnología de teledetección y la inteligencia artificial, la demanda humana por aplicaciones de datos de teledetección se vuelve cada vez más refinada. Sin embargo, los datos de un solo modo presentan limitaciones en la interpretación de escenas complejas, dificultando la extracción completa de información profunda contenida en las imágenes de teledetección. Por ello, el análisis colaborativo de datos multimodales se ha convertido en una vía clave para mejorar las capacidades de interpretación de la teledetección y promover el desarrollo adicional del campo. La comprensión multimodal texto-imagen en teledetección establece un vínculo entre las imágenes de teledetección y la cognición humana a través de descripciones textuales, utilizando la información semántica del texto para mejorar la representación de características visuales, logrando una complementariedad de información entre modos que mejora significativamente el rendimiento de la interpretación de teledetección. Este artículo toma la comprensión multimodal texto-imagen en teledetección como hilo conductor, dividiéndola en cuatro tareas: descripción de imágenes de teledetección, generación de imágenes a partir de texto, alineación texto-imagen en teledetección y preguntas y respuestas sobre imágenes de teledetección. Primero, se presenta un resumen del estado del desarrollo de la investigación sobre comprensión multimodal texto-imagen a nivel nacional e internacional; luego, se introducen los conjuntos de datos públicos y los indicadores de evaluación comúnmente utilizados; finalmente, se resumen los desafíos técnicos que enfrenta la comprensión multimodal texto-imagen en teledetección y se exploran las direcciones futuras de investigación.
关键词
Teledetección multimodal texto-imagen; descripción de imágenes; generación de imágenes a partir de texto; alineación texto-imagen; preguntas y respuestas sobre imágenes; conjuntos de datos multimodales de teledetección