Die weitverbreitete Verteilung von Steinen auf der Marsoberfläche stellt eine potenzielle Bedrohung für die sichere Fahrt der Mars-Rover dar, gleichzeitig liefern die Verteilungseigenschaften der Steine wichtige Hinweise zur Erforschung der geologischen Entwicklung der Landegebiete auf dem Mars. Die Erkennung von Steinen in Bildern der Mars-Rover steht jedoch vor mehreren Herausforderungen: unscharfe Kanten zwischen Steinen und Hintergrund erschweren die Konturenerfassung, die Ähnlichkeit der Oberflächentexturmerkmale führt zu Fehlalarmen, und der Mangel an realen Mars-Stein-Datensätzen begrenzt das Modelltraining. Um eine genaue Erkennung von Steinen in den Bildern der Mars-Rover zu erreichen, wird in dieser Arbeit ein automatisches Stein-Erkennungsmodell auf Basis eines konvolutionalen Selbstaufmerksamkeitsnetzes vorgeschlagen, das eine pixelgenaue Segmentierung der Bilder ermöglicht. Das Modell verwendet eine Encoder-Decoder-Architektur, wobei der Encoder auf einem konvolutionalen neuronalen Netzwerk basiert, um Bildmerkmale zu extrahieren, und ein verbessertes Selbstaufmerksamkeitsmodul integriert, um die Kontextwahrnehmung des Modells zu verstärken; der Decoder ist dafür verantwortlich, die vom Encoder extrahierten Merkmale zurück in den Bildraum zu projizieren und eine präzise Segmentierung zu ermöglichen. Zur Validierung der Modellleistung wurden die Bilder des Mars-Rovers „Zhurong“ annotiert und der Tianwen-Datensatz erstellt. Die Leistung des Modells wurde mit mehreren Datensätzen getestet und validiert, darunter die simulierten Stein-Datensätze Synmars, Simmars6k und der Bilddatensatz des Rovers „Curiosity“ MarsData-v2. Darüber hinaus wurde das Modell mit mehreren Methoden wie DeepLabv3+, Unet++, Segformer und Marsnet in Bezug auf die Genauigkeit verglichen. Die Bewertung anhand von durchschnittlicher Pixelgenauigkeit, Rückrufrate und Intersection over Union (IoU) zeigt, dass das Modell Steine präzise erkennen kann, mit Genauigkeiten und Rückrufraten von über 90 % bei simulierten Datensätzen und den besten Ergebnissen bei realen Datensätzen.