La cartographie actuelle de la couverture terrestre fait face à des défis majeurs tels que la limitation des sources de données uniques, l'hétérogénéité des données et une capacité de généralisation insuffisante des modèles uniques. Ainsi, cette étude s'appuie sur les caractéristiques spectrales des images multispectrales MSI (Multispectral Imagery) et les propriétés distinctes des données Radar à Synthèse d'Ouverture SAR (Synthetic Aperture Radar), pour construire un ensemble de données multimodales (MSI+SAR), afin de compenser les limites des données SAR unimodales dans des scénarios complexes. En outre, après une évaluation systématique de sept modèles représentatifs au niveau du modèle, une méthode de fusion multimodale combinant trois types d'architectures a été proposée : FCN représentant les réseaux de neurones convolutifs (CNN), ConViT représentant les transformateurs visuels (ViT), et CoAtNet représentant une architecture hybride CNN-ViT. Les résultats expérimentaux montrent que les données multimodales (MSI+SAR) améliorent significativement la précision globale OA (Overall Accuracy) et l'indice FWIoU (Frequency-Weighted Intersection over Union), deux indicateurs représentatifs de segmentation sémantique, par rapport aux données SAR unimodales. Le cadre de fusion multi-modèles proposé améliore en outre ces deux indicateurs. La méthode innovante proposée dans cette étude renforce non seulement la capacité du modèle à extraire des caractéristiques complexes des objets, mais améliore aussi efficacement la classification dans la cartographie à grande échelle de la couverture terrestre, démontrant le fort potentiel des données multimodales et de la fusion multi-modèles en télédétection.
关键词
cartographie de la couverture terrestre;multispectral;radar à synthèse d'ouverture;multimodal;fusion multi-modèles;réseaux de neurones convolutifs;transformateurs visuels