Recuperación multimodal de imágenes y texto en teledetección: tecnologías clave y desafíos

WANG Yijing ,  

TANG Xu ,  

HAN Shuo ,  

DU Ruiqi ,  

摘要

La recuperación multimodal de imágenes y texto en teledetección actúa como un puente que conecta el lenguaje natural con las imágenes de teledetección, con el objetivo de construir asociaciones semánticas bidireccionales eficientes, siendo una tecnología clave para el análisis inteligente de datos de teledetección. Este artículo ofrece una visión general completa de la evolución tecnológica y el estado actual de la investigación en el campo de la recuperación multimodal de imágenes y texto en teledetección. En primer lugar, se analizan minuciosamente las características de los principales conjuntos de datos de referencia en cuanto a escala, categorías de escenas y calidad de las anotaciones textuales, y se presenta un sistema común de índices de evaluación que sienta las bases para investigaciones futuras. En segundo lugar, se revisa la representación de características de texto desde los métodos estadísticos tradicionales hasta el aprendizaje profundo, así como los avances tecnológicos en la representación de características de imágenes de teledetección desde características manuales hasta redes neuronales profundas. En tercer lugar, dividiendo según si se adoptan modelos de preentrenamiento multimodal o no, se analizan en profundidad los principios y características de los métodos basados en preentrenamiento no multimodal y en preentrenamiento multimodal, y a través de comparaciones experimentales en tres conjuntos de datos principales, se revelan las ventajas de rendimiento de los métodos de preentrenamiento multimodal y las reglas de adaptación de datos de diferentes estrategias de ajuste fino. Finalmente, este artículo resume los desafíos centrales que enfrentan actualmente las investigaciones, como la alineación semántica de grano fino, la fusión de datos multisource y la generalización cross-domain, así como la falta de un mecanismo de coincidencia dinámica temporal, y vislumbra direcciones futuras en la mejora de características de grano fino, la modelización colaborativa de datos multisource heterogéneos y el desarrollo de mecanismos de alineación sensibles al tiempo, con el fin de promover el desarrollo más profundo de la tecnología de recuperación multimodal de imágenes y texto en teledetección en aplicaciones prácticas.

关键词

imágenes de teledetección; recuperación multimodal; modelado de relaciones texto-imagen; aprendizaje profundo; modelos preentrenados; alineación semántica; representación de características; modelos preentrenados multimodales

阅读全文