Con la integración profunda de la tecnología de teledetección y la inteligencia artificial, la demanda humana de aplicaciones de datos de teledetección se vuelve cada vez más refinada. Sin embargo, los datos de modalidad única tienen limitaciones en la interpretación de escenas complejas y es difícil explotar completamente la información profunda de las imágenes de teledetección. Por lo tanto, el análisis conjunto de datos multimodales se convierte en un medio clave para mejorar la capacidad de interpretación de la teledetección y estimula el desarrollo continuo en el campo de la teledetección. La comprensión intermodal de las imágenes establece una conexión entre las imágenes de teledetección y la percepción humana a través de la descripción de texto, utilizando la información semántica del texto para mejorar la caracterización visual y mejorar significativamente el rendimiento de la interpretación de teledetección. Este artículo se centra en la comprensión intermodal de las imágenes de teledetección, dividiéndola en cuatro tareas: descripción de imágenes de teledetección, generación de texto para imágenes, alineación de imágenes de teledetección y respuestas a preguntas sobre imágenes de teledetección. En primer lugar, se resume la situación actual de la investigación intermodal global, luego se presentan los conjuntos de datos públicos comúnmente utilizados e indicadores de evaluación actuales para la comprensión intermodal de imágenes de teledetección. Finalmente, se resumen los desafíos técnicos a los que se enfrenta la comprensión intermodal de las imágenes de teledetección, y se hacen proyecciones sobre las futuras direcciones de la investigación.
关键词
Comprensión intermodal de imágenes; Descripción de imágenes; Generación de texto para imágenes; Alineación de imágenes de teledetección; Respuestas a preguntas sobre imágenes; Conjuntos de datos intermodales de teledetección