Tras el entrenamiento con datos generales a gran escala, los modelos visual-lingüísticos poseen cierta capacidad de comprensión imagen-texto, mostrando un rendimiento sobresaliente en tareas como clasificación sin muestras, clasificación con pocas muestras, búsqueda imagen-texto, generación de subtítulos para imágenes, preguntas visuales y localización visual. Sin embargo, al manejar imágenes de campos especializados como la teledetección, su desempeño generalmente cae considerablemente debido a las diferencias en la distribución del dominio. En los últimos dos años, varios investigadores han estudiado la especialización de modelos visual-lingüísticos para el ámbito de la teledetección. Se han construido múltiples conjuntos de datos de gran escala con pares de imágenes y textos de teledetección para realizar el ajuste fino de los modelos visual-lingüísticos en este campo, otorgándoles capacidad de percepción geográfica. Este artículo se centra en la tarea de clasificación sin muestras, donde se seleccionaron y analizaron investigaciones relacionadas con modelos visual-lingüísticos para teledetección que apoyan dicha tarea. Adoptando un análisis comparativo, se resume el desarrollo de los modelos visual-lingüísticos para teledetección en tres dimensiones: construcción de conjuntos de datos imagen-texto de teledetección, estrategias de ajuste fino del modelo y mejoras arquitectónicas. Los resultados indican que el rendimiento de los modelos visual-lingüísticos en el dominio de teledetección para clasificación sin muestras depende altamente de pares de datos imagen-texto anotados de gran calidad y escala, y está limitado por la computación de alto rendimiento. Además, el desarrollo actual de los modelos es muy disperso y diverso, lo que dificulta establecer una evaluación de referencia unificada. La investigación futura debería centrarse en desarrollar arquitecturas ligeras que integren conocimientos espaciales geográficos a priori y establecer un sistema de evaluación de referencia unificado para los modelos visual-lingüísticos en teledetección.
关键词
Interpretación inteligente de teledetección; modelos visual-lingüísticos; modelos visual-lingüísticos para teledetección; técnicas de ajuste fino de modelos; aprendizaje multimodal; alineación imagen-texto; clasificación sin muestras; construcción de conjuntos de datos de teledetección