Los modelos de lenguaje visual han logrado avances significativos en diversas tareas multimodales como la clasificación de pequeñas muestras, la búsqueda de imágenes, subtítulos de imágenes, respuestas visuales y posicionamiento visual. Sin embargo, la mayoría de los métodos dependen del entrenamiento previo en conjuntos de datos generales, lo que conduce a un mal rendimiento de generalización en áreas especializadas como la teledetección y la medicina. Recientemente se han propuesto numerosos modelos de lenguaje visual para la teledetección, estos nuevos modelos funcionan mediante el ajuste de modelos de lenguaje visual general utilizando imágenes a gran escala y textos de teledetección, con el objetivo de crear modelos de lenguaje visual especializados para el dominio de la teledetección. En este artículo se presenta un resumen y análisis de los últimos avances en modelos de lenguaje visual para la teledetección, principalmente utilizando datos de lenguaje visual general para ajustar modelos de lenguaje visual y construir modelos especializados para la teledetección; sin embargo, el desarrollo de los modelos actuales es muy diverso, lo que dificulta el establecimiento de un sistema de evaluación de referencia unificado para los modelos de lenguaje visual para la teledetección. Para resolver este problema, es posible combinar el diseño de la arquitectura del modelo, las técnicas de ajuste para optimizar la potencia informática, mientras se mejora gradualmente el sistema de evaluación según las características diversas de las tareas.
关键词
Interpretación inteligente de teledetección; modelo de lenguaje visual; modelo de lenguaje visual para teledetección; técnicas de ajuste del modelo; aprendizaje multimodal; alineación texto-imagen; clasificación de pequeñas muestras; construcción de conjuntos de datos para teledetección