Указательная сегментация дистанционных снимков с руководством сущностями и кросс-модальным взаимодействием

JIA Yuyu ,  

CHI Kaichen ,  

ZHOU Qing ,  

LI Qiang ,  

WANG Qi ,  

摘要

Сегментация указания на дистанционные снимки направлена на точное позиционирование и анализ определённых областей на основе текстового описания для достижения семантической интерпретации на уровне пикселей. Эта задача эффективно строит мост между потребностями пользователя и интеллектуальным анализом дистанционных изображений. Тем не менее, присущая дистанционным снимкам сложная и разнообразная фон, а также низкая контрастность между объектом и фоном могут приводить к путанице объектов в результатах сегментации. Кроме того, традиционные методы указательной сегментации на основе кросс-модального механизма внимания имеют недостатки в преодолении различий между модальностями, затрудняя точное выравнивание между текстовыми описаниями и географическими характеристиками. В связи с этим в статье предложен метод кросс-модального взаимодействия с руководством сущностями — Enti-CroM. Сначала внедрён модуль самостоятельного вывода с руководством сущностями, вдохновлённый SAM, для извлечения подсказок с пространственными структурными ограничениями, которые объединяются с визуальными и текстовыми признаками для построения трёхмодальной информационной кубы — сущность-визуализация-текст. Затем, на этапе кросс-модального взаимодействия, разработан иерархический механизм взаимодействия модальностей: (1) посредством безпараметрической взаимной активации модальностей обеспечивается эффективная передача семантической информации между модальностями, сокращая семантический разрыв; (2) на этой основе введена операция кросс-внимания текст-визуализация под руководством сущностей для повышения способности модели представлять неправильные географические границы. Экспериментальные результаты на двух широко используемых эталонных датасетах RefSegRS и RRSIS-D показали улучшение показателя mIoU на 1,84% и 4,27% соответственно, превосходя современные передовые методы и подтверждая эффективность и превосходство предлагаемого подхода.

关键词

дистанционные снимки;указательная сегментация;кросс-модальное взаимодействие;SAM;осознание сущностей;механизм внимания;ограничение пространственной структуры

阅读全文