Imagens de sensoriamento remoto possuem características como diferenças significativas no tamanho dos alvos e fundos complexos e variados, com fenômenos de confusão espectral de objetos e limites de características pouco claros, o que aumenta a dificuldade da tarefa de segmentação semântica. Para lidar com a dificuldade da segmentação semântica de alvos em imagens de sensoriamento remoto sob diferentes condições de iluminação devido à dependência mútua das características, este artigo propõe um modelo de segmentação semântica para imagens de sensoriamento remoto baseado em desentrelaçamento, composto pela rede de desentrelaçamento de iluminação-reflexão (LRD-Net) e pela rede de segmentação semântica multimodal (MSS-Net). Primeiro, a rede LRD-Net foi projetada com base na teoria Retinex para decompor as características de iluminação e reflexão em imagens ópticas, extraindo características globais e locais dos alvos por meio do Transformer de compartilhamento de peso (WS-Transformer); em seguida, introduz-se um módulo de ruído multiescala para reforçar adaptativamente o componente de iluminação, melhorando a capacidade de desentrelaçamento do modelo, destacando as diferenças entre as características dos diferentes componentes por meio do módulo de reforço de características salientes (SE); por fim, utiliza-se o módulo de extração de características de borda (EE) para melhorar a capacidade de reconhecimento das bordas dos alvos de sensoriamento remoto, e por meio da rede de segmentação semântica multimodal (MSS-Net) fundem-se as características de iluminação e reflexão para melhorar o desempenho da segmentação semântica. Nos conjuntos de dados gerais ISPRS Vaihingen e ISPRS Potsdam, o índice mIoU atingiu 84,60% e 87,42%, respectivamente. Os resultados experimentais mostram que o modelo proposto supera outros modelos na tarefa de segmentação semântica de imagens de sensoriamento remoto.
关键词
segmentação semântica;decomposição de imagem;teoria Retinex;Transformer