A segmentação orientada de imagens de sensoriamento remoto tem como objetivo localizar e analisar precisamente áreas específicas com base em descrições textuais, alcançando uma interpretação semântica em nível de pixel. Essa tarefa constrói eficazmente uma ponte entre as necessidades dos usuários e a análise inteligente de imagens de sensoriamento remoto. No entanto, as características inerentes às imagens de sensoriamento remoto, como o fundo complexo e diversificado e o baixo contraste entre o alvo e o fundo, podem causar confusão nos objetos segmentados. Além disso, métodos tradicionais de segmentação orientada baseados em mecanismos de atenção multimodal apresentam deficiências na superação das diferenças entre as modalidades, dificultando um alinhamento preciso entre a descrição textual e as características geográficas. Em vista disso, este artigo propõe um método de interação multimodal guiado por entidades — Enti-CroM. Primeiro, é introduzido um módulo de raciocínio auto-guiado por entidades inspirado no SAM para extrair pistas de entidades com restrições estruturais espaciais, que são fundidas com características visuais e textuais para construir um cubo de informação tri-modal entidade-visual-texto. Em seguida, na fase de interação multimodal, é projetado um mecanismo de interação modal hierárquico: (1) por meio da ativação mútua modal sem parâmetros, realiza-se a propagação eficiente de informações semânticas entre as modalidades, reduzindo a lacuna semântica entre diferentes modalidades; (2) sobre esta base, é introduzida a operação de atenção cruzada texto-visual guiada por entidades para aprimorar a capacidade do modelo de representar limites geográficos irregulares. Diversos resultados experimentais em dois conjuntos de dados de referência amplamente utilizados, RefSegRS e RRSIS-D, mostram que o Enti-CroM alcança melhorias de 1,84% e 4,27% no índice mIoU, respectivamente, superando vários métodos avançados atuais e validando a eficácia e superioridade deste método.
关键词
imagens de sensoriamento remoto; segmentação orientada; interação multimodal; SAM; percepção de entidades; mecanismo de atenção; restrição de estrutura espacial