С углублением интеграции технологий дистанционного зондирования и искусственного интеллекта растет потребность человека в более тонком использовании данных дистанционного зондирования. Однако у одномодальных данных есть ограничения в сложной интерпретации сцен, что затрудняет полное извлечение глубинной информации из изображений дистанционного зондирования. Поэтому совместный анализ многомодальных данных становится ключевым путем повышения способности к интерпретации дистанционных данных и стимуляции дальнейшего развития в области дистанционного зондирования. Визуально-текстовое перекрестное восприятие устанавливает связь между изображениями дистанционного зондирования и человеческим восприятием через текстовое описание, используя семантическую информацию текста для улучшения визуальных характеристик, что значительно повышает производительность интерпретации дистанционных данных. В этой статье основное внимание уделяется визуальному и текстовому перекрестному восприятию дистанционного зондирования, которое делится на четыре задачи: описание изображений дистанционного зондирования, генерация текста для изображений, соответствие изображений дистанционного зондирования текстам и ответы на вопросы об изображениях дистанционного зондирования. Сначала обобщается текущее состояние мировой медицинской науки, затем вводятся общедоступные наборы данных и текущие индикаторы, используемые для оценки понимания визуально-текстового перекрестного восприятия дистанционного зондирования. Наконец, обобщаются технические вызовы, стоящие перед визуально-текстовым перекрестным восприятием дистанционного зондирования, и делаются прогнозы о будущих направлениях исследований.
关键词
Визуально-текстовое перекрестное восприятие; Описание изображений; Генерация текста для изображений; Сопоставление изображений дистанционного зондирования с текстами; Ответы на вопросы об изображениях; Наборы дистанционного зондирования