La segmentación semántica de imágenes de teledetección desempeña un papel importante en la detección de cambios urbanos, la protección ambiental, la identificación de desastres geológicos y otros campos. Para abordar los problemas actuales de detección omisa, detección errónea y extracción incompleta causada por árboles u objetos similares en la extracción de edificios de imágenes de teledetección, este artículo propone una red mejorada para la extracción de edificios basada en la red UNet: red de fusión de características locales-globales (Fusion of local global features network, FLGF-UNet). El método de fusión paralela de características de FLGF-UNet asegura que cada etapa contenga información local fina y dependencias globales, permitiendo que la red tenga simultáneamente información local y global en cada representación de características, superando eficazmente las limitaciones del Transformer en el intercambio de información local y superando a las CNN tradicionales en la modelación de información global. Además, para compensar la brecha semántica entre el codificador y el decodificador, se incorpora un módulo de fusión interactiva (Interactive Fusion, IF), que mejora la integración de detalles espaciales, contexto global y características semánticas. Para validar la superioridad y generalidad de FLGF-UNet, la red propuesta se comparó con U2Net, Swin Transformer, MA-Net, HD-Net y RS-Mamba en los conjuntos de datos WHU, Massachusetts y conjuntos de datos de edificios típicos de ciudades chinas. Los resultados muestran que FLGF-UNet supera en rendimiento a otras redes SOTA y tiene un alto valor de aplicación práctica.
关键词
imágenes de teledetección; extracción de edificios; red de fusión de características locales-globales; fusión de características; módulo de fusión interactiva