出版云平台

Revisión de modelos visual-lingüísticos para teledetección orientados a clasificación sin muestras

DOI：10.11834/jrs.20254427

摘要

Tras el entrenamiento con datos generales a gran escala, los modelos visual-lingüísticos poseen cierta capacidad de comprensión imagen-texto, mostrando un rendimiento sobresaliente en tareas como clasificación sin muestras, clasificación con pocas muestras, búsqueda imagen-texto, generación de subtítulos para imágenes, preguntas visuales y localización visual. Sin embargo, al manejar imágenes de campos especializados como la teledetección, su desempeño generalmente cae considerablemente debido a las diferencias en la distribución del dominio. En los últimos dos años, varios investigadores han estudiado la especialización de modelos visual-lingüísticos para el ámbito de la teledetección. Se han construido múltiples conjuntos de datos de gran escala con pares de imágenes y textos de teledetección para realizar el ajuste fino de los modelos visual-lingüísticos en este campo, otorgándoles capacidad de percepción geográfica. Este artículo se centra en la tarea de clasificación sin muestras, donde se seleccionaron y analizaron investigaciones relacionadas con modelos visual-lingüísticos para teledetección que apoyan dicha tarea. Adoptando un análisis comparativo, se resume el desarrollo de los modelos visual-lingüísticos para teledetección en tres dimensiones: construcción de conjuntos de datos imagen-texto de teledetección, estrategias de ajuste fino del modelo y mejoras arquitectónicas. Los resultados indican que el rendimiento de los modelos visual-lingüísticos en el dominio de teledetección para clasificación sin muestras depende altamente de pares de datos imagen-texto anotados de gran calidad y escala, y está limitado por la computación de alto rendimiento. Además, el desarrollo actual de los modelos es muy disperso y diverso, lo que dificulta establecer una evaluación de referencia unificada. La investigación futura debería centrarse en desarrollar arquitecturas ligeras que integren conocimientos espaciales geográficos a priori y establecer un sistema de evaluación de referencia unificado para los modelos visual-lingüísticos en teledetección.

关键词

Interpretación inteligente de teledetección; modelos visual-lingüísticos; modelos visual-lingüísticos para teledetección; técnicas de ajuste fino de modelos; aprendizaje multimodal; alineación imagen-texto; clasificación sin muestras; construcción de conjuntos de datos de teledetección

阅读全文

Revisión de modelos visual-lingüísticos para teledetección orientados a clasificación sin muestras

TAN Xiaomeng ,

XI Bobo ,

XUE Changbin ,

LI Yunsong ,

XU Haitao ,

DOI：10.11834/jrs.20254427

摘要

关键词