Обнаружение семантических изменений на дистанционных изображениях играет важную роль в экологической среде, мониторинге землепользования и покрытий. В последние годы методы обнаружения изменений на основе глубокого обучения являются горячей темой в интеллектуальной интерпретации дистанционных данных, однако существующие методы семантического обнаружения изменений с тремя ветвями не моделируют согласованность между ветвью изменений и семантической ветвью, что приводит к противоречиям в семантическом обнаружении изменений двух временных фаз. Для решения этой проблемы в статье предложен алгоритм семантического обнаружения изменений на дистанционных изображениях на основе сдвоенной CNN и Transformer. На этапе кодирования сначала разработана сдвоенная сеть ResNet34 для извлечения многоуровневых признаков изображений с внедрением модуля усиления различий для повышения внимания к информации об изменениях; затем с помощью семантического маркера карта признаков отображается в компактные семантические токены, и через кодировщик Transformer моделируется согласованность «семантика — изменение» путем совместного кодирования семантической и изменяющейся информации двух временных фаз. На этапе декодирования с помощью декодировщика Transformer и скип-соединений происходит слияние семантической информации разной степени детализации для генерации уточненной семантической карты признаков; после восстановления путем увеличения выборки и умножения на маску получается результат семантического изменения двух временных фаз. Результаты экспериментов на открытых наборах данных по семантическому обнаружению изменений в дистанционных данных SECOND и Landsat-SCD показывают, что предлагаемый алгоритм эффективно фокусируется на областях изменений, поддерживает согласованность результатов изменений и семантики, достигая при этом отличных показателей оценки и визуального эффекта.