Clasificación de escenas de imágenes de altitud basada en un transformador de visión de dos etapas

WU Qianqian ,  

NI Kang ,  

ZHENG Zhizhong ,  

摘要

El modelo de transformador, debido a su potente modelado de características globales y su capacidad para representar las relaciones a larga distancia, se ha aplicado ampliamente en el campo de la clasificación de escenas de imágenes remotas, pero las escenas de imágenes remotas presentan estructuras espaciales complejas, una gran variabilidad en la escala de los objetos, el uso directo del enfoque de mosaico de imagen de tamaño fijo en ViT (Vision Transformer) y la representación de características profundas no pueden caracterizar de manera efectiva la información espacial de las escenas de imágenes remotas. Para resolver los problemas anteriores, este artículo propone un método de clasificación de escenas de imágenes remotas basado en un transformador de visión de dos etapas THViT (Two-stage High-order Vision Transformer). Este método utiliza la red LV-ViT-S como red principal y comprende una clasificación dinámica gruesa-fina en dos etapas, esta etapa primero divide las imágenes de escenas de imágenes remotas en bloques de imágenes de gran tamaño para realizar el trabajo de clasificación fácil de las escenas de imágenes remotas, luego según el mecanismo de atención de clase y el módulo de extracción de información, completa la redivisión de las imágenes de escenas de imágenes remotas, esta etapa puede clasificar las escenas de imágenes remotas más complejas. Al mismo tiempo, para mejorar la discriminabilidad de las características profundas, THViT introduce una representación de características de orden superior de la covarianza de Braun, desde el punto de vista estadístico, para capturar eficazmente una representación de características profundas discriminadas de las imágenes de escenas de imágenes remotas. Además, para superar las limitaciones de la red de transformadores utilizando solo tokens de clasificación como características de clasificación, este artículo introduce tanto tokens de clasificación como tokens de características de orden superior en un clasificador softmax, mejorando el rendimiento de clasificación de escenas de imágenes remotas y confirmando la eficacia de los tokens de características de orden superior para la clasificación de escenas de imágenes remotas. Los resultados experimentales muestran: en comparación con algoritmos relacionados como CFDNN, GLDBS, GAN, GCN, D-CapsNet, SCCov, ViT, Swin-T, LV-ViT-S y SCViT, THViT presenta un rendimiento superior en los conjuntos de datos NWPU45 (CONJUNTO DE DATOS NWPU-RESISC45) y AID (CONJUNTO DE DATOS DE IMÁGENES AÉREAS).

关键词

Imágenes de altitud; Clasificación de escenas; Red de transformadores; Representación de características; Características de alto orden

阅读全文