Der Transformer-Modus wird aufgrund seiner leistungsstarken globalen Merkmalmodellierung und seiner Fähigkeit zur Darstellung langer Abhängigkeitsbeziehungen jetzt weit verbreitet in der Szenenklassifizierung von Remote-Sensing-Bildern angewendet, aber es gibt Herausforderungen bei Remote-Sensing-Szenebildern wie komplizierte räumliche Strukturen und große Änderungen der Zielskala. Das direkte Verwenden der festen Größen der Bildblöcke und der tiefen Merkmalsdarstellung in ViT (Vision Transformer) kann nicht effektiv die räumlichen Merkmalsinformationen von Remote-Sensing-Szenenbildern darstellen. In dieser Studie wird eine Methode zur Szenenklassifizierung von Remote-Sensing-Bildern auf der Grundlage von Remote-Sensing-Bildern und der Erfassung des überarbeiteten Bereichs verglichen durch Das Schneiden in größere Bildblöcke erleichtert die Klassifizierung von Remote-Sensing-Szenenbildern; dann auf der Basis von Klasseninteresse und Modiar-Aufmerksamkeitsmechanismus wird die Segmentierungsmethode erneut zur Klassifizierung von Remote-Sensing-Szenenbildern abgeschlossen, wodurch auch komplexere Klassifizierungen von Remote-Sensing-Szenenbildern möglich sind. Gleichzeitig wird zur Verbesserung der unterscheidungsfähigen tiefen Merkmale der THViT die statistische Brown-Kovarianz in die Darstellung hoher Ordnung eingeführt, um aus statistischer Sicht effektiv die unterscheidungsfähige tiefe Merkmalsdarstellung von Remote-Sensing-Szenenbildern zu erfassen. Darüber hinaus wird in dieser Studie die Notwendigkeit, die auf die Klassifikationstoken und die Merkmale hoher Ordnung beschränkt ist, überwunden ab, indem die Klassifikationstoken und die Merkmale hoher Ordnung gleichzeitig in den Softmax-Klassifikator eingegeben werden, was die Leistung der Szenenklassifizierung von Remote-Sensing-Bildern verbessert und die Wirksamkeit der Merkmale hoher Ordnung in der Szenenklassifizierung von Remote-Sensing-Bildern bestätigt. Experimentelle Ergebnisse zeigen: Im Vergleich zu verwandten Algorithmen wie CFDNN, GLDBS, GAN, GCN, D-CapsNet, SCCov, ViT, Swin-T, LV-ViT-S und SCViT hat THViT auf den Datensätzen NWPU45 (NWPU-RESISC45 Dataset) und AID (Aerial Image Dataset) eine gute Leistung.