La large distribution de roches à la surface de Mars constitue une menace potentielle pour la conduite sécurisée du rover sur Mars, et en même temps, la distribution des roches fournit également des indices importants pour étudier l'évolution géologique de la zone d'atterrissage sur Mars. Cependant, l'identification des roches sur les images du rover sur Mars est confrontée à plusieurs défis : les bords flous des roches et de l'arrière-plan rendent l'extraction des contours difficile, la similitude des caractéristiques de texture entraîne des déclenchements erronés, et le manque de jeux de données réels sur les roches de Mars limite la formation du modèle. Afin de réaliser une identification précise des roches sur les images du rover sur Mars, cet article propose un modèle d'identification automatique des roches basé sur un réseau de convolution auto-attention pour la segmentation des pixels des images. Ce modèle adopte une architecture encodeur-décodeur, où l'encodeur extrait les caractéristiques de l'image à partir d'un réseau neuronal convolutionnel, et intègre également un module d'auto-attention amélioré pour renforcer la capacité du modèle à percevoir les informations contextuelles ; le décodeur est responsable de mapper les caractéristiques extraites par l'encodeur dans l'espace de l'image pour une segmentation précise. Pour vérifier les performances du modèle, cet article a annoté les images du rover Zhurong et a construit un ensemble de données Tianwen, et a également testé et validé les performances du modèle en utilisant plusieurs ensembles de données tels que l'ensemble de données simulées sur les roches Synmars, Simmars6k, l'ensemble de données d'images Curiosity MarsData-v2 et autres. De plus, cet article a comparé cette modèle avec plusieurs méthodes telles que DeepLabv3+, Unet++, Segformer, Marsnet, etc. En utilisant des indicateurs tels que la précision moyenne des pixels, le rappel, l'indice de Jaccard, etc., les résultats montrent que ce modèle est capable d'identifier précisément les roches, avec une précision et un rappel de plus de 90% sur les ensembles de données simulés, et une précision et un rappel optimaux sur les ensembles de données réelles.