С глубоким слиянием технологий дистанционного зондирования и искусственного интеллекта потребности человечества в применении данных дистанционного зондирования становятся все более точными. Однако одномодальные данные имеют ограничения при интерпретации сложных сцен, что затрудняет полное извлечение глубоких сведений из изображений дистанционного зондирования. Поэтому кооперативный анализ мульти-модальных данных становится ключевым путем повышения возможностей интерпретации дистанционного зондирования и способствует дальнейшему развитию данной области. Кросс-модальное понимание изображения и текста в дистанционном зондировании устанавливает связь между изображениями дистанционного зондирования и человеческим восприятием через текстовое описание, используя семантическую информацию текста для усиления визуальных признаков, реализуя взаимодополнение информации между модальностями, что значительно улучшает производительность интерпретации данных дистанционного зондирования. В данной работе основное внимание уделено кросс-модальному пониманию текста и изображений в дистанционном зондировании, разделенному на четыре задачи: описание изображений дистанционного зондирования, генерация изображений на основе текста, выравнивание текста и изображений, а также вопросы и ответы по изображениям дистанционного зондирования. Сначала представлен обзор состояния исследований кросс-модального понимания текста и изображений в стране и за рубежом; затем представлены общедоступные наборы данных и метрики оценки, часто используемые в кросс-модальном понимании текстов и изображений дистанционного зондирования; наконец, обобщаются технические вызовы, с которыми сталкивается кросс-модальное понимание текста и изображений в дистанционном зондировании, и рассматриваются направления будущих исследований.
关键词
Мультимодальное дистанционное зондирование текст и изображение; описание изображений; генерация изображений по тексту; выравнивание текста и изображения; вопросы и ответы по изображениям; мультимодальные наборы данных дистанционного зондирования