La amplia distribución de rocas en la superficie de Marte representa una amenaza potencial para la conducción segura del rover en Marte, y al mismo tiempo, la distribución de rocas también proporciona importantes pistas para estudiar la evolución geológica de la zona de aterrizaje en Marte. Sin embargo, la identificación de rocas en las imágenes del rover en Marte enfrenta varios desafíos: los bordes difusos de las rocas y el fondo dificultan la extracción de contornos, la similitud de las características texturales provoca disparos erróneos, y la escasez de conjuntos de datos reales de rocas en Marte limita el entrenamiento del modelo. Para lograr una identificación precisa de las rocas en las imágenes del rover en Marte, este artículo propone un modelo de identificación automática de rocas basado en una red de autoatención convolucional para la segmentación de píxeles de imágenes. Este modelo adopta una arquitectura codificador-decodificador, donde el codificador extrae características de la imagen basado en una red neuronal convolucional, e incorpora también un módulo de autoatención mejorado para potenciar la capacidad del modelo para percibir información contextual; el decodificador se encarga de mapear las características extraídas por el codificador en el espacio de la imagen para una segmentación precisa. Para verificar el rendimiento del modelo, este artículo etiquetó las imágenes del rover Zhurong y construyó un conjunto de datos Tianwen, y también probó y validó el rendimiento del modelo utilizando varios conjuntos de datos como el conjunto de datos simulado de rocas Synmars, Simmars6k, conjunto de datos de imágenes Curiosity MarsData-v2 y otros. Además, este artículo comparó este modelo con varios métodos como DeepLabv3+, Unet++, Segformer, Marsnet, etc. Utilizando indicadores como la precisión promedio de píxeles, la recuperación, la intersección sobre unión, etc., los resultados muestran que este modelo es capaz de identificar rocas de manera precisa, con una precisión y recuperación superiores al 90% en conjuntos de datos simulados y una precisión y recuperación óptimas en conjuntos de datos reales.