Los datos de índice de vegetación de diferencia normalizada (Normalized Difference Vegetation Index, NDVI) con alta resolución temporal y espacial son fundamentales para el monitoreo del crecimiento de cultivos y la inversión de parámetros. Los datos de banda roja y banda cercana al infrarrojo de sensores remotos satelitales pueden servir como fuentes de datos importantes para el NDVI. Sin embargo, debido a las limitaciones de potencia de los sensores satelitales, es difícil obtener datos NDVI con alta resolución espacial y temporal al mismo tiempo. La técnica de fusión espacio-temporal tiene como objetivo combinar datos NDVI con alta resolución temporal pero baja resolución espacial y datos NDVI con alta resolución espacial pero baja resolución temporal para generar datos NDVI con alta resolución espacio-temporal. Sin embargo, la fusión espacio-temporal del NDVI enfrenta un gran desafío, es decir, se produce un cambio significativo en la cobertura terrestre entre el momento en que se conocen los datos auxiliares y el momento de la predicción. Para hacer frente a este desafío, este documento propone un método de fusión espacio-temporal acoplado a la reconstrucción espacial (Spatio-temporal fusion then spatial reconstruction, STFSR) para la fusión espacio-temporal del NDVI. El método STFSR aprovecha al máximo los datos de alta resolución espacial cercanos al momento de la predicción pero con datos faltantes (debido a la cobertura de nubes en las imágenes satelitales) para asistir en la predicción de la fusión espacio-temporal del NDVI. El uso de este tipo de imágenes auxiliares reduce eficazmente el impacto de los cambios del NDVI en la fusión espacio-temporal. En los tres sitios experimentales seleccionados en este documento, se demostró que el método STFSR tiene una precisión mayor que el modelo común de fusión de reflexión adaptativa espacial y temporal (Spatial and Temporal Adaptive Reflectance Fusion Model, STARFM) y el método de fusión espacio-temporal basado en pesos espaciales y pares de imágenes virtuales (spatial weighting-based virtual image pair-based spatio-temporal fusion, VIPSTF-SW). El error cuadrático medio promedio (Root Mean Square Error, RMSE) del método STFSR en los tres sitios experimentales se redujo en 0.0217 y 0.0188 en comparación con STARFM y VIPSTF-SW, respectivamente. El coeficiente de correlación promedio (Correlation Coefficient, CC) aumentó en 0.0820 y 0.0742 respectivamente, y el error relativo de síntesis global (Relative Global-dimensional Synthesis Error, ERGAS) se redujo en 4.3170 y 3.8535 respectivamente. Además, cuando el área de nubes en los datos auxiliares aumenta, el método STFSR muestra una tendencia a disminuir en precisión, pero en general sigue siendo mejor que STARFM y VIPSTF-SW. El método STFSR proporciona una nueva idea para la generación de datos NDVI con alta resolución espacio-temporal, y debido a sus principios y ventajas, este modelo también tiene un potencial de aplicación considerable para otros índices de vegetación con alta resolución espacio-temporal, como el índice de vegetación mejorado (Enhanced Vegetation Index, EVI).