Сегментация указания на дистанционные снимки направлена на точное позиционирование и анализ определённых областей на основе текстового описания для достижения семантической интерпретации на уровне пикселей. Эта задача эффективно строит мост между потребностями пользователя и интеллектуальным анализом дистанционных изображений. Тем не менее, присущая дистанционным снимкам сложная и разнообразная фон, а также низкая контрастность между объектом и фоном могут приводить к путанице объектов в результатах сегментации. Кроме того, традиционные методы указательной сегментации на основе кросс-модального механизма внимания имеют недостатки в преодолении различий между модальностями, затрудняя точное выравнивание между текстовыми описаниями и географическими характеристиками. В связи с этим в статье предложен метод кросс-модального взаимодействия с руководством сущностями — Enti-CroM. Сначала внедрён модуль самостоятельного вывода с руководством сущностями, вдохновлённый SAM, для извлечения подсказок с пространственными структурными ограничениями, которые объединяются с визуальными и текстовыми признаками для построения трёхмодальной информационной кубы — сущность-визуализация-текст. Затем, на этапе кросс-модального взаимодействия, разработан иерархический механизм взаимодействия модальностей: (1) посредством безпараметрической взаимной активации модальностей обеспечивается эффективная передача семантической информации между модальностями, сокращая семантический разрыв; (2) на этой основе введена операция кросс-внимания текст-визуализация под руководством сущностей для повышения способности модели представлять неправильные географические границы. Экспериментальные результаты на двух широко используемых эталонных датасетах RefSegRS и RRSIS-D показали улучшение показателя mIoU на 1,84% и 4,27% соответственно, превосходя современные передовые методы и подтверждая эффективность и превосходство предлагаемого подхода.
关键词
дистанционные снимки;указательная сегментация;кросс-модальное взаимодействие;SAM;осознание сущностей;механизм внимания;ограничение пространственной структуры