Le modèle de transformateur en raison de sa modélisation puissante de caractéristiques globales et de sa capacité à représenter les relations à longue distance est désormais largement appliqué dans le domaine de la classification des scènes d'images distantes, mais les scènes d'images distantes présentent des structures spatiales complexes, une grande variabilité d'échelle des objets, l'utilisation directe de l'approche de blocage d'images de taille fixe dans ViT (Vision Transformer) et la représentation de caractéristiques profondes ne peut pas caractériser efficacement les informations spatiales des scènes d'images distantes. Pour résoudre les problèmes ci-dessus, cet article propose une méthode de classification des scènes d'images distantes basée sur un transformateur de vision à deux étages THViT (Two-stage High-order Vision Transformer). Cette méthode utilise le réseau LV-ViT-S comme réseau principal et comprend une classification dynamique grossière-fine en deux étapes, cette étape divise d'abord les images de scènes d'images distantes en blocs d'images de grande taille pour effectuer le travail de classification facile des scènes d'images distantes, puis selon le mécanisme d'attention de classe et le module d'extraction d'informations, achève la redivision des images de scènes d'images distantes, cette étape peut classer les scènes d'images distantes plus complexes. En même temps, pour améliorer la discriminabilité des caractéristiques profondes, THViT introduit une représentation de caractéristiques d'ordre élevé de covariance de Braun, d'un point de vue statistique, pour capturer efficacement une représentation de caractéristiques profondes discriminante des images de scènes d'images distantes. De plus, pour surmonter les limitations du réseau de transformateurs en utilisant uniquement des jetons de classification comme caractéristiques de classification, cet article introduit à la fois des jetons de classification et des jetons de caractéristiques d'ordre élevé dans un classificateur softmax, améliorant les performances de classification de scènes d'images distantes et confirmant l'efficacité des jetons de caractéristiques d'ordre élevé pour la classification des scènes d'images distantes. Les résultats expérimentaux montrent : par rapport aux algorithmes associés tels que CFDNN, GLDBS, GAN, GCN, D-CapsNet, SCCov, ViT, Swin-T, LV-ViT-S et SCViT, THViT présente des performances supérieures sur les ensembles de données NWPU45 (ENSEMBLE DE DONNÉES NWPU-RESISC45) et AID (ENSEMBLE DE DONNÉES D'IMAGES AÉRIENNES).
关键词
Images d'altitudes; Classification de scènes; Réseau de transformateurs; Représentation des caractéristiques; Caractéristiques d'ordre élevé