A cartografia atual da cobertura do solo enfrenta desafios centrais, como a limitação de fontes de dados únicas, alta heterogeneidade dos dados e insuficiente capacidade de generalização de modelos únicos. Por isso, este estudo baseia-se nas características espectrais das imagens multiespectrais MSI (Multispectral Imagery) e nas propriedades distintas dos dados do Radar de Abertura Sintética SAR (Synthetic Aperture Radar), construindo um conjunto de dados multimodal (MSI+SAR) para compensar as limitações dos dados SAR unimodais em cenários complexos. Além disso, após avaliação sistemática de sete modelos representativos no nível do modelo, foi proposto um método de fusão multimodelo que integra três tipos de arquiteturas: FCN, representando redes neurais convolucionais (CNN); ConViT, representando transformadores visuais (ViT); e CoAtNet, representando uma arquitetura híbrida CNN-ViT. Os resultados experimentais mostram que os dados multimodais (MSI+SAR) alcançam uma melhora significativa em relação aos dados SAR unimodais nos dois principais índices de avaliação de segmentação semântica: precisão geral (OA) e FWIoU (Frequency-Weighted Intersection over Union). O quadro de fusão multimodelo proposto melhora ainda mais esses dois índices. O método inovador proposto neste estudo não só melhora a capacidade do modelo de extrair características complexas do terreno, mas também aumenta eficazmente a classificação em mapeamento de cobertura do solo em grande escala, comprovando o forte potencial dos dados multimodais e da fusão multimodelo no sensoriamento remoto.
关键词
mapeamento de cobertura do solo;multiespectral;radar de abertura sintética;multimodal;fusão multimodelo;redes neurais convolucionais;transformadores visuais