Las imágenes satelitales multiespectrales tienen información espectral que puede reflejar una riqueza de características del terreno, pero tienen una baja resolución espacial y una falta relativa de información textural. Por el contrario, las imágenes satelitales pancromáticas tienen una alta resolución espacial y una rica información textural, pero carecen de información espectral rica en características del terreno. La técnica de fusión de imágenes puede integrarlas para aprovechar sus respectivas ventajas, y así permitir que la imagen fusionada satisfaga mejor las necesidades de las tareas posteriores. En este artículo, se propone un método de fusión de imágenes satelitales multiespectrales y pancromáticas basado en una red generativa de doble vía y un transformador. Específicamente, el método utiliza primero un suavizado guiado para descomponer las imágenes de origen (multiespectrales y pancromáticas) en componentes base que presentan la información principal de la imagen y componentes detallados que reflejan información de textura y detalle; luego los componentes base de las imágenes multiespectrales y pancromáticas descompuestas se concatenan, también se concatenan los componentes estándar obtenidos de la descomposición; luego, los componentes base concatenados a partir de los componentes base de las imágenes y los componentes estándar se introducen en la rama base del generador, y los componentes estándar obtenidos de la descomposición también se introducen en la rama detallada; a continuación, teniendo en cuenta las diferentes características de los componentes base y los componentes estándar, se extrae información de características utilizando una red transformadora y una red neuronal convolucional, respectivamente, para extraer información espectral global e información de textura local de la rama base y la rama detallada; finalmente, a través de un entrenamiento antagónico continuo entre el generador y los dobles discriminadores (base y detalle), se obtiene una imagen fusionada con información espectral rica y alta resolución espacial. Experimentos comparativos cualitativos y cuantitativos con varios métodos representativos en conjunto de datos públicos muestran que este método tiene ciertas ventajas, es decir, logra un mejor rendimiento de fusión tanto en el efecto visual subjetivo como en la evaluación objetiva.