С глубокой интеграцией технологии дистанционного зондирования и искусственного интеллекта человеческий спрос на применение данных дистанционного зондирования становится все более утонченным. Однако у одномодальных данных есть ограничения в интерпретации сложных сценариев, и трудно полностью извлечь глубокую информацию из изображений дистанционного зондирования. Поэтому совместный анализ мультимодальных данных становится ключом к улучшению возможностей интерпретации данных дистанционного зондирования, продвигая область дистанционного зондирования к дальнейшему развитию. Понимание текстовой и визуальной модальности устанавливает связь между изображениями дистанционного зондирования и человеческим познанием, используя семантическую информацию текста для укрепления визуального представления особенностей, добиваясь мультимодальной информационной комплементарности, что значительно улучшает производительность интерпретации данных дистанционного зондирования. В этой статье, сфокусированной на понимании текстового и визуального моделирования, понимание текстового и визуального моделирования дистанционного зондирования разбивается на четыре задачи: описание изображений дистанционного зондирования, создание текста из изображений, выравнивание текста и изображений и вопросы и ответы по изображениям дистанционного зондирования. Первоначально описывается текущее состояние многомодальных исследований текстового и визуального моделирования в Китае и за рубежом, затем представляются общедоступные наборы данных и метрики оценки для понимания текстового и визуального моделирования. Наконец, обсуждаются технические проблемы, с которыми сталкивается понимание текстовой и визуальной модальности в дистанционном зондировании, и даётся прогноз на будущие направления исследований.