Estudios sobre la comprensión multimodal de escenas de teledetección

ZHENG Xiangtao ,  

ZHAO Zhengying ,  

SONG Baogui ,  

LI Hao ,  

LU Xiaoqiang ,  

摘要

Con el desarrollo de la tecnología de teledetección y la inteligencia artificial, la demanda de aplicaciones de datos de teledetección se vuelve cada vez más refinada. Sin embargo, los datos unimodales tienen limitaciones en la interpretación de escenarios complejos, lo que dificulta la extracción de información profunda de las imágenes de teledetección. Por lo tanto, el análisis coordinado de datos multimodales se ha convertido en una forma clave de mejorar la capacidad de interpretación de los datos de teledetección, y ha impulsado el desarrollo continuo del campo de la teledetección. La comprensión multimodal de las imágenes a través del texto establece una conexión entre las imágenes de teledetección y la percepción humana, mejora la representación de las características visuales mediante la información semántica del texto, logra una complementariedad de la información multimodal y mejora significativamente el rendimiento de la interpretación de las imágenes de teledetección. Este artículo se centra en la comprensión multimodal de las imágenes de teledetección a través del texto, dividiendo la comprensión multimodal de las imágenes de teledetección en cuatro tareas: descripción de imágenes de teledetección, generación de texto para imágenes de teledetección, alineación de imágenes de teledetección y texto, y preguntas sobre imágenes de teledetección. En primer lugar, se resume la situación actual de la investigación multimodal en todo el mundo; luego se revisan los conjuntos de datos comunes y los criterios de evaluación para la comprensión multimodal de las imágenes de teledetección; por último, se resumen los retos técnicos a los que se enfrenta la comprensión multimodal de las imágenes de teledetección y se identifican las futuras direcciones de la investigación.

关键词

Comprensión multimodal de imágenes; Descripción de imágenes; Generación de texto para imágenes; Alineación de imágenes y texto; Preguntas sobre imágenes; Conjuntos de datos multimodales de teledetección

阅读全文