Модель трансформатора благодаря своей мощной глобальной модели особенностей и способности представлять отношения длительного расстояния широко применяется в области классификации сцен отдаленных съемок, однако сцены отдаленных съемок имеют сложную пространственную структуру и большие изменения в масштабе объектов, прямое использование же фиксированного размера блоков изображения и глубокого представления особенностей в ViT (Vision Transformer) не может эффективно описать пространственную информацию о сценах отдаленных съемок. Для решения указанных выше проблем в данной статье предлагается метод классификации сцен отдаленных съемок на основе двухэтапного высокоуровневого трансформатора THViT (Two-stage High-order Vision Transformer). Этот метод использует сеть LV-ViT-S в качестве основной сети и содержит грубую-тонкую динамическую классификацию, которая в первую очередь разделяет сцены отдаленных съемок на крупные блоки изображений для работы по легкой классификации сцен отдаленных съемок. Затем, на основе механизма внимания к классам и модуля извлечения информации, завершается разделение сцен отдаленных съемок снова, и это этап может выполнить классификацию более сложных сцен отдаленных съемок. В то же время для улучшения дискриминационных особенностей глубоких признаков THViT вводит представление высокого порядка ковариации брауна, статистически, эффективно улавливая дискриминационное представление глубоких признаков снимков. Кроме того, для преодоления ограничений сети трансформатора, использование токенов классификации в качестве единственной возможности классификации, в данной статье вводятся одновременно токены классификации и токены высокого порядка в классификатор softmax, улучшая производительность классификации сцен отдаленных съемок, а также подтверждая эффективность токенов высокого порядка для классификации сцен отдаленных съемок. Результаты экспериментов показывают: по сравнению со схожими алгоритмами, такими как CFDNN, GLDBS, GAN, GCN, D-CapsNet, SCCov, ViT, Swin-T, LV-ViT-S и SCViT, THViT проявляет лучшую производительность на наборах данных NWPU45 (набор данных NWPU-RESISC45) и AID (набор данных для воздушного изображения).
关键词
Снимки высотных изысканий; Классификация сцен; Сеть трансформатора; Представление особенностей; Высокоуровневое представление особенностей