La segmentation sémantique des images de télédétection joue un rôle important dans la détection des changements urbains, la protection de l'environnement, la reconnaissance des catastrophes géologiques et d'autres domaines. Pour résoudre les problèmes d’omissions, de fausses détections et d’extraction incomplète des bâtiments causés par des obstacles tels que les arbres ou des objets similaires dans l’extraction des bâtiments en télédétection actuelle, cet article propose un réseau amélioré d’extraction des bâtiments basé sur le réseau UNet — réseau de fusion des caractéristiques locales et globales (Fusion of local global features network, FLGF-UNet). La méthode de fusion parallèle des caractéristiques de FLGF-UNet garantit que les caractéristiques de chaque étape incluent à la fois des informations locales fines et des dépendances globales, permettant au réseau de posséder à chaque étape des représentations caractéristiques contenant à la fois des informations locales et globales, surmontant efficacement les lacunes du Transformer dans l’échange d’informations locales tout en surpassant les CNN traditionnels dans la modélisation d’informations globales. De plus, pour combler le fossé sémantique entre l’encodeur et le décodeur, un module de fusion interactive (Interactive Fusion, IF) est ajouté entre eux, renforçant l’effet de fusion des détails spatiaux, du contexte global et des caractéristiques sémantiques. Pour vérifier la supériorité et la généralité de FLGF-UNet, le réseau proposé a été comparé avec U2Net, Swin Transformer, MA-Net, HD-Net et RS-Mamba sur les ensembles de données WHU, Massachusetts, et des bâtiments typiques des villes chinoises. Les résultats montrent que FLGF-UNet dépasse les autres réseaux SOTA en termes de performance et présente une grande valeur d’application pratique.
关键词
images de télédétection; extraction des bâtiments; réseau de fusion des caractéristiques locales et globales; fusion des caractéristiques; module de fusion interactive