После обучения на больших объемах общих данных, визуально-языковые модели обладают определенными способностями к пониманию изображений и текста, демонстрируя высокую производительность в задачах нулевого образца, малозначного обучения, поиска по изображению и тексту, генерации подписей к изображениям, визуальных вопросов-ответов и визуального позиционирования. Однако при обработке изображений из специальных областей, таких как дистанционное зондирование, их производительность значительно снижается из-за различий в распределении данных. В последние два года многие исследователи посвятили внимание специализированному применению визуально-языковых моделей в области дистанционного зондирования. Были созданы несколько больших наборов данных с парой изображений и текстов дистанционного зондирования, чтобы провести дообучение визуально-языковых моделей в данной области и предоставить им геопространственные возможности. В данной работе основное внимание уделяется задаче классификации нулевого образца, где был отобран и проанализирован соответствующий исследованиям визуально-языковой модели дистанционного зондирования, поддерживающие эту задачу. Используя сравнительный анализ, обобщено развитие визуально-языковых моделей дистанционного зондирования по трем направлениям: создание датасетов с изображениями и текстами дистанционного зондирования, стратегии дообучения моделей и улучшения архитектуры. Результаты показывают, что производительность визуально-языковых моделей в домене дистанционного зондирования для классификации нулевого образца сильно зависит от больших высококачественных аннотированных пар данных изображений и текста, а также ограничена необходимыми мощными вычислительными ресурсами. Кроме того, современное развитие моделей достаточно разрозненно и разнообразно, что затрудняет создание единой стандартизированной системы оценки. Будущие исследования должны сосредоточиться на разработке легковесных архитектур, интегрирующих геопространственные априорные знания, а также на создании унифицированной стандартизированной системы оценки визуально-языковых моделей дистанционного зондирования.
关键词
Интеллектуальная интерпретация дистанционного зондирования; визуально-языковые модели; визуально-языковые модели дистанционного зондирования; методы дообучения моделей; мультимодальное обучение; выравнивание текста и изображения; классификация нулевого образца; создание наборов данных дистанционного зондирования