Advances in remote sensing image-text cross-modal understanding

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

Con la integración profunda de la tecnología de teledetección y la inteligencia artificial, la demanda humana de aplicaciones de datos de teledetección se vuelve cada vez más refinada. Sin embargo, los datos de modalidad única tienen limitaciones en la interpretación de escenarios complejos, y es difícil explotar completamente la información profunda en las imágenes de teledetección. Por consiguiente, el análisis conjunto de datos multimodales se convierte en un medio clave para mejorar la capacidad de interpretación de datos de teledetección, impulsando así el desarrollo continuo del campo de la teledetección. La comprensión multimodal de texto e imagen establece una conexión entre las imágenes de teledetección y el conocimiento humano, utilizando la información semántica del texto para reforzar la representación de las características visuales, logrando así una complementariedad de información multimodal, mejorando significativamente el rendimiento de interpretación de datos de teledetección. Este artículo, centrado en la comprensión multimodal texto-imagen, divide la comprensión multimodal texto-imagen de la teledetección en cuatro tareas: descripción de imágenes de teledetección, generación de texto a partir de imágenes, alineación de texto-imagen y preguntas-respuestas sobre imágenes de teledetección. Primero, resume el estado actual de desarrollo de la investigación texto-imagen multimodal en China y en el extranjero, luego presenta los conjuntos de datos públicos comúnmente utilizados y las métricas de evaluación para la comprensión multimodal texto-imagen. Finalmente, resume los desafíos técnicos a los que se enfrenta la comprensión multimodal texto-imagen en la teledetección y ofrece una visión general de las futuras direcciones de investigación.

关键词

remote sensing image-text cross-modal;image captioning;text-to-image generation;image-text alignment;visual question answering;remote sensing cross-modal datasets

阅读全文