Визуальные языковые модели достигли значительных успехов в многомодальных задачах, таких как нулевая и малая выборка, поиск изображений, текстовые подписи изображений, визуальные ответы и визуальное позиционирование. Однако большинство методов зависят от предварительного обучения на общих наборах данных, что приводит к плохой обобщаемости в специализированных областях, таких как дистанционное зондирование и медицина. Недавно было предложено множество визуальных языковых моделей для дистанционного зондирования, эти новые модели обучаются путем настройки общих визуальных языковых моделей с использованием крупномасштабных изображений и текстов дистанционного зондирования, чтобы создать специализированные визуальные языковые модели для области дистанционного зондирования. В данной статье подводится итог и анализ последних достижений в области визуальных языковых моделей для дистанционного зондирования, в основном с использованием данных общего визуального языка для настройки визуальных языковых моделей и создания специализированных моделей для области дистанционного зондирования; однако развитие текущих моделей является очень разнообразным, что затрудняет создание унифицированной оценочной системы для визуальных языковых моделей для дистанционного зондирования. Для решения данной проблемы, возможно сочетание проектирования архитектуры модели, технологии настройки для оптимизации вычислительной мощности, а также поэтапное совершенствование системы оценки на основе разнообразных особенностей задач.
关键词
Интеллектуальная разметка дистанционного зондирования; языковая визуальная модель; визуальная языковая модель для дистанционного зондирования; технологии настройки модели; многомодальное обучение; соответствие текста и изображения; нулевой выбор; создание набора данных для дистанционного зондирования