Исследовательский прогресс в кросс-модальном понимании текста и изображения сцен дистанционного зондирования

ZHENG Xiangtao; ZHAO Zhengying; SONG Baogui; LI Hao; LU Xiaoqiang

doi:10.11834/jrs.20255125

Исследовательский прогресс в кросс-модальном понимании текста и изображения сцен дистанционного зондирования

DOI：10.11834/jrs.20255125

摘要

С глубоким слиянием технологий дистанционного зондирования и искусственного интеллекта потребности человечества в применении данных дистанционного зондирования становятся все более точными. Однако одномодальные данные имеют ограничения при интерпретации сложных сцен, что затрудняет полное извлечение глубоких сведений из изображений дистанционного зондирования. Поэтому кооперативный анализ мульти-модальных данных становится ключевым путем повышения возможностей интерпретации дистанционного зондирования и способствует дальнейшему развитию данной области. Кросс-модальное понимание изображения и текста в дистанционном зондировании устанавливает связь между изображениями дистанционного зондирования и человеческим восприятием через текстовое описание, используя семантическую информацию текста для усиления визуальных признаков, реализуя взаимодополнение информации между модальностями, что значительно улучшает производительность интерпретации данных дистанционного зондирования. В данной работе основное внимание уделено кросс-модальному пониманию текста и изображений в дистанционном зондировании, разделенному на четыре задачи: описание изображений дистанционного зондирования, генерация изображений на основе текста, выравнивание текста и изображений, а также вопросы и ответы по изображениям дистанционного зондирования. Сначала представлен обзор состояния исследований кросс-модального понимания текста и изображений в стране и за рубежом; затем представлены общедоступные наборы данных и метрики оценки, часто используемые в кросс-модальном понимании текстов и изображений дистанционного зондирования; наконец, обобщаются технические вызовы, с которыми сталкивается кросс-модальное понимание текста и изображений в дистанционном зондировании, и рассматриваются направления будущих исследований.

关键词

Мультимодальное дистанционное зондирование текст и изображение; описание изображений; генерация изображений по тексту; выравнивание текста и изображения; вопросы и ответы по изображениям; мультимодальные наборы данных дистанционного зондирования

阅读全文

Исследовательский прогресс в кросс-модальном понимании текста и изображения сцен дистанционного зондирования

ZHENG Xiangtao ,

ZHAO Zhengying ,

SONG Baogui ,

LI Hao ,

LU Xiaoqiang ,

DOI：10.11834/jrs.20255125

摘要

关键词