La cartografía actual de la cobertura terrestre enfrenta desafíos clave como la limitación de fuentes de datos únicas, la alta heterogeneidad de los datos y la insuficiente capacidad de generalización de modelos únicos. Por ello, este estudio se basa en las características espectrales de las imágenes multiespectrales MSI (Multispectral Imagery) y las propiedades distintas de los datos del radar de apertura sintética SAR (Synthetic Aperture Radar), para construir un conjunto de datos multimodal (MSI+SAR) que compensen las deficiencias de los datos SAR unimodales en escenarios complejos. Además, tras evaluar sistemáticamente siete modelos representativos a nivel de modelo, se propuso un método de fusión multmodelo que integra tres tipos de arquitecturas: FCN que representa redes neuronales convolucionales (CNN), ConViT que representa transformadores visuales (ViT) y CoAtNet que representa una arquitectura híbrida CNN-ViT. Los resultados experimentales muestran que los datos multimodales (MSI+SAR) logran mejoras significativas en comparación con los datos SAR unimodales en la precisión general (OA) y en el índice FWIoU (Frequency-Weighted Intersection over Union), dos indicadores representativos de la evaluación semántica. El marco de fusión multmodelo propuesto mejora aún más estos dos indicadores. El método innovador propuesto no sólo refuerza la capacidad del modelo para extraer características complejas del terreno, sino que también mejora eficazmente la clasificación en la cartografía de la cobertura terrestre a gran escala, demostrando el fuerte potencial de los datos multimodales y la fusión multmodelo en la teledetección.
关键词
cartografía de la cobertura terrestre;multiespectral;radar de apertura sintética;multimodal;fusión multmodelo;redes neuronales convolucionales;transformadores visuales