С развитием технологий дистанционного зондирования и искусственного интеллекта увеличивается потребность человека в более точном применении дистанционных данных.Однако, одномодальные данные имеют ограничения при интерпретации сложных сценариев, их сложно использовать для извлечения глубокой информации из изображений. Поэтому анализ мультимодальных данных становится ключевым способом улучшения способности интерпретации дистанционных данных и способствует дальнейшему развитию области дистанционного зондирования. Разнообразие восприятия изображений создается текстовым описанием и связывает изображения с восприятием человека, визуальными характеристиками, учетом семантической информации для улучшения представления визуальных характеристик и взаимных преимуществам информации. Это значительно улучшает способность интерпретации дистанционных данных. В этой статье основное внимание уделено пониманию мультимодальных изображений и текста, которое разделено на четыре задачи: описание дистанционных изображений, генерация текста для изображений, сопоставление дистанционных изображений и текстов, а также вопросы на дистанционные изображения. Сначала обобщено текущее состояние исследований мультимодального понимания изображений в зарубежных и отечественными условиях, затем представлены общедоступные наборы данных и показатели оценки мультимодального понимания дистанционных изображений и текста, наконец, подведены итоги технических вызовов, с которыми сталкивается мультимодальное понимание дистанционных изображений и текста, и проведен прогноз будущих направлений исследований.
关键词
Мультимодальное понимание изображений; Описание изображений; Генерация текстов для изображений; Сопоставление изображений и текстов; Вопросы на изображения; Мультимодальные наборы данных дистанционного зондирования