Segmentación dirigida de imágenes de teledetección guiada por entidades e interacción multimodal

JIA Yuyu ,  

CHI Kaichen ,  

ZHOU Qing ,  

LI Qiang ,  

WANG Qi ,  

摘要

La segmentación dirigida de imágenes de teledetección tiene como objetivo localizar y analizar con precisión áreas específicas basándose en descripciones de texto, logrando una interpretación semántica a nivel de píxel. Esta tarea construye eficazmente un puente entre las necesidades del usuario y el análisis inteligente de imágenes de teledetección. Sin embargo, las características inherentes a las imágenes de teledetección, como el fondo complejo y diverso y el bajo contraste entre el objetivo y el fondo, pueden provocar confusión en los objetos segmentados. Además, los métodos tradicionales de segmentación dirigida basados en mecanismos de atención cruzada multimodal presentan deficiencias para superar las diferencias entre modalidades, dificultando una alineación precisa entre la descripción textual y las características geográficas. En vista de esto, este trabajo propone un método de interacción multimodal guiado por entidades llamado Enti-CroM. Primero, se introduce un módulo de razonamiento auto-guiado por entidades inspirado en SAM para extraer indicios de entidades con restricciones estructurales espaciales, que se fusionan con características visuales y textuales para construir un cubo de información tri-modal de entidad-visual-texto. Luego, en la fase de interacción multimodal, se diseña un mecanismo de interacción modal jerárquico: (1) mediante activación mutua modal sin parámetros, se logra una propagación eficiente de la información semántica entre modalidades, reduciendo la brecha semántica entre diferentes modalidades; (2) sobre esta base, se introduce una operación de atención cruzada texto-visual guiada por entidades para mejorar la capacidad del modelo para representar límites geográficos irregulares. Los numerosos resultados experimentales en dos conjuntos de datos de referencia ampliamente utilizados, RefSegRS y RRSIS-D, muestran que Enti-CroM mejora el índice mIoU en un 1.84% y 4.27% respectivamente, superando varios métodos avanzados actuales y validando la efectividad y superioridad de este método.

关键词

imágenes de teledetección; segmentación dirigida; interacción multimodal; SAM; conciencia de entidades; mecanismo de atención; restricción de estructura espacial

阅读全文