Мультимодальный поиск изображений и текста в дистанционном зондировании служит мостом между естественным языком и изображениями дистанционного зондирования, направленным на построение эффективных двунаправленных семантических связей и является ключевой технологией интеллектуального анализа данных дистанционного зондирования. В статье всесторонне рассматривается эволюция технологий и текущее состояние исследований в области мультимодального поиска изображений и текста в дистанционном зондировании. Во-первых, подробно проанализированы характеристики основных эталонных наборов данных по размеру, категориям сцен и качеству текстовых аннотаций, а также представлен универсальный набор оценочных метрик, который служит основой для дальнейших исследований. Во-вторых, рассмотрено представление текстовых признаков от традиционных статистических методов до глубокого обучения, а также технологические прорывы в представлении признаков изображений дистанционного зондирования от ручных признаков до глубоких нейронных сетей. В-третьих, с разделением по применению мультимодальных предварительно обученных моделей, подробно проанализированы принципы и характеристики моделей, основанных на не мультимодальном и мультимодальном предварительном обучении, и через сравнительные эксперименты на трех основных наборах данных выявлены преимущества производительности мультимодальных методов предварительного обучения и закономерности адаптации данных различных стратегий тонкой настройки. Наконец, статья резюмирует основные вызовы современных исследований: тонкое семантическое выравнивание, слияние многомодальных данных и генерализация между доменами, а также отсутствие механизма временного динамического сопоставления, и рассматривает перспективы будущих исследований в области усиления тонких признаков, координированного моделирования гетерогенных источников данных и разработки временно осведомленных механизмов выравнивания с целью содействия дальнейшему развитию технологий мультимодального поиска изображений и текста в дистанционном зондировании в реальных приложениях.
关键词
изображения дистанционного зондирования; мультимодальный поиск; моделирование тексто-изобразительных связей; глубокое обучение; предварительно обученные модели; семантическое выравнивание; представление признаков; мультимодальные предварительно обученные модели